모델을 검토함에 있어 아래 기준을 중심으로 모델 후보군을 구성하였으며, 이 중 KULLM3,Qwen2.5-14B-Instruct 그리고 Qwen2.5-7B-Instruct를 유력 후보로 선정하여 비교 및 테스트를 진행하였습니다.
기준 항목 |
설명 |
1. 모델 크기 대비 성능 |
7B~14B 범위 내에서 성능 효율이 우수한 모델 선호 |
2. 양자화 가능 여부 |
GGUF, GPTQ 등으로 경량화 및 배포 가능성 |
3. 한국어 지원 |
한국어 instruction-following 및 응답 품질 |
4. 확장성 |
Streaming 출력 지원, LangChain / RAG 구조 연동 가능 여부 |
항목 |
KULLM3 |
Qwen2.5-14B Instruct |
Qwen2.5-7B Instruct |
모델 크기 |
10.7B |
14B |
7B |
한국어 지원 |
✅ (한국어 특화) |
✅ (멀티랭귀지) |
✅ (멀티랭귀지) |
T4 호환성 |
✅ |
✅ |
✅ |
양자화 가능 여부 |
🔄 직접 변환 필요 |
✅ (GGUF 다수 제공) |
✅ (GGUF 다수 제공) |
Streaming 지원 |
✅ |
✅ (TextStreamer) |
✅ (TextStreamer) |
LangChain 연계 |
✅ |
✅ |
✅ |
라이선스 |
Apache 2.0 |
Apache 2.0 |
Apache 2.0 |
Hugging Face
GitHub
- KULLM3는 고려대학교 NLP&AI 연구실에서 개발한 고성능 한국어 언어 모델
- Instruction Following 성능에서 GPT-3.5-turbo 수준에 근접
- 한국어와 영어를 모두 지원하며, 자연스러운 대화가 가능
- 공개된 한국어 특화 모델 중 최상위 성능
- Apache 2.0 라이선스로 상업적 활용 가능
- SOLAR-10.7B-v1.0 기반 파인튜닝
항목 |
설명 |
타입 |
Causal Language Model (자연어 생성형) |
학습 과정 |
SOLAR-10.7B 기반 파인튜닝 지시응답 데이터 기반 Post-training 수행 |
지원 언어 |
한국어, 영어 |
기반 모델 |
upstage/SOLAR-10.7B-v1.0 |
학습 데이터 |
vicgalle/alpaca-gpt4 + 한국어 지시 응답 데이터 (gpt 기반 + 수작업 혼합) |
데이터량 |
약 66,000개 이상의 예제 사용 |
라이선스 |
Apache 2.0 |
시스템 프롬프트 |
"당신은 고려대학교 NLP&AI 연구실에서 만든 AI 챗봇입니다..." 등 고정 프롬프트 사용 |
Hugging Face
GitHub
-
Qwen2.5는 알리바바에서 만든 최신 대규모 언어 모델 시리즈
-
파라미터 크기: 0.5B ~ 72B까지 다양한 사이즈 공개
- 2.5시리즈는 다음 분야에서 특히 향상됨
-
코딩 및 수학 능력 대폭 향상 (전문 모델 활용)
-
Instruction following (지시 따르기) 성능 개선
-
8K 이상 긴 텍스트 생성 성능 향상
-
표나 JSON 같은 구조화 데이터 이해/생성 능력 증가
-
시스템 프롬프트 다양성에 대한 강건함 (역할극, 조건 설정에 유리)
-
멀티 languages 지원: 한국어 포함 29개 언어 이상
-
긴 문맥 지원: 최대 128K 토큰 읽기, 최대 8K 토큰 생성
항목 |
설명 |
타입 |
Causal Language Model (자연어 생성형) |
학습 과정 |
사전학습(Pretraining) + 지시응답 튜닝(Post-training) |
파라미터 수 |
총 14.7B (비임베딩 파라미터: 13.1B) |
레이어 수 |
48개 |
어텐션 구조 |
GQA (Grouped Query Attention) Q: 40개, KV: 8개 |
컨텍스트 길이 |
입력: 131,072 tokens 생성: 최대 8,192 tokens |
아키텍처 구성 |
RoPE, SwiGLU, RMSNorm, Attention QKV Bias 포함 |
Hugging Face
GitHub
-
Qwen2.5-7B-Instruct는 알리바바에서 개발한 Qwen 2.5 시리즈 중 하나로, **지시 기반 응답(Instruct)**에 최적화된 7B 규모의 언어 모델입니다.
-
Qwen2.5 시리즈는 다음 분야에서 두드러진 성능 향상을 보입니다:
-
긴 텍스트 생성 및 문맥 유지 능력 (8K 토큰 생성)
-
29개 이상 언어 지원, 한국어 포함
-
지시 따르기 (Instruction Following) 능력 강화
- 다양한 시스템 프롬프트 대응력 (역할극, 조건 기반 설정에 강함)
-
구조화된 데이터 처리 능력 향상 (JSON, 표 등)
-
코딩 및 수학 능력 향상 (전문적인 코드 이해 및 생성)
항목 |
설명 |
타입 |
Causal Language Model (자연어 생성형) |
학습 과정 |
사전학습(Pretraining) + 지시응답 튜닝(Instruct Tuning) |
파라미터 수 |
총 6.9B (임베딩 제외 약 6.4B) |
레이어 수 |
32개 |
어텐션 구조 |
GQA (Grouped Query Attention) – Query: 32개 / KV: 8개 |
컨텍스트 길이 |
입력 최대 131,072 tokens, 생성 최대 8,192 tokens
|
지원 길이 |
최대 128K 토큰 문맥 처리 가능, 8K 토큰 생성 최적화
|
아키텍처 구성 |
RoPE 위치 인코딩, SwiGLU 활성화 함수, RMSNorm 정규화, QKV Bias 적용 |