1.기존 모델 추론의 성능 지표 수집 및 문서화
동일한 사용자 피드 "나는 친구들이랑 노는게 재밌어" 입력 후, 아래 5개 모델의 MBTI 4축 (E, S, T, J) 예측 결과를 비교
프롬프팅 기반 모델 비교표
모델명 |
추론시간 |
의미있는 축(E) 변화 |
불필요한 축 변화 |
Gemini API |
약 7초 |
있음 |
거의없음 |
recoilme/gemma-2-9B |
약 1분 |
있음 |
있음 |
llama3.1_korean-8B |
약 5분 |
있음 |
없음 |
llama3.2 3B |
약 23분 |
없음 |
있음 |
gemma-3-4b-it |
약 2분 |
없음 |
있음 |
deepseek-7b |
약 4분 |
없음 |
없음 |
ktdsbaseLM v0.12 |
약 1분 20초 |
없음 |
없음 |
✔️ HyperCLOVAX-SEED-Text-Instruct-1.5B |
14초 |
있음 |
거의 없음 |
HyperCLOVAX-SEED-Text-Instruct-0.5B |
30초 |
있음 |
있음 |
Gemini API |
recoilme/gemma-2-9B |
llama3.1_korean-8B |
llama3.2 3B |
|
|
|
|
✔️ gemma-3-4b-it |
deepseek-7b |
ktdsbaseLM v0.12 |
✔️ HyperCLOVAX-SEED-Text-Instruct-1.5B |
HyperCLOVAX-SEED-Text-Instruct-0.5B |
|
|
|
|
|
선정 모델
- recoilme-gemma-2-9B
- google/gemma-3-4b-it
- ✔️ hyperCLOVAX-SEED-Text-Instruct-1.5B
- hyperCLOVAX-SEED-Text-Instruct-0.5B
RAG 생성 후 성능 비교 (Chroma + MiniLM 기반)
모델명 |
평균 추론 시간 |
의미있는 축 변화 |
불필요한 축 변화 |
GPU 예약 메모리 |
recoilme-gemma-2-9B |
약 1분 |
있음 |
있음 |
38792.58 MB |
google/gemma-3-4b-it |
약 1분 |
있음 |
있음 |
22380.0 MB |
✔️ hyperCLOVAX-SEED-Text-Instruct-1.5B |
14초 |
있음 |
거의 없음 |
3.414GB |
hyperCLOVAX-SEED-Text-Instruct-0.5B |
30초 |
있음 |
있음 |
1.281GB |
recoilme-gemma-2-9B |
google/gemma-2-4b |
HyperCLOVAX-SEED-Text-Instruct-1.5B |
HyperCLOVAX-SEED-Text-Instruct-0.5B |
|
|
|
|
GPU 사용률과 성능 모두 고려해 hyperCLOVAX-SEED-Text-Instruct-1.5B 채택 ✅
2.식별된 성능 병목 요소 및 원인 분석
모델명 |
병목요소 |
주요 원인 분석 |
Gemini API |
수치 해석 한계 |
수치 추론보다 설명 생성에 집중 |
recoilme/gemma-2-9B |
너무 큰 파라미터 수 |
- |
llama3.1_korean-8B |
추론 지연 |
파라미터 수 및 모델 아키텍처 복잡성 |
llama3.2 3B |
품질저하 + 느림 |
한국어 지원 미흡 + 응답 편향 |
gemma-3-4b-it |
정확도 분산 |
판단은 하지만 축 선택 정확도가 낮음 |
deepseek-7b |
품질저하 + 느림 |
한국어 지원 미흡 + 응답 편향 |
ktdsbaseLM v0.12 |
품질저하 |
경량화로 인한 추론 능력 저하 |
✔️ HyperCLOVAX-SEED-Text-Instruct-1.5B |
- |
- |
HyperCLOVAX-SEED-Text-Instruct-0.5B |
- |
추론 능력 저하 |
3.적용할 최적화 기법 구체 계획 수립
최적화 목표
벡터 유사도 검색을 제거하고, QLoRA 기반 경량화 모델 추론 방식을 도입
파인튜닝 데이터
- 학습데이터: Korean_MBIT-Dataset
모델 및 학습 방식
- 베이스 모델: rocoilme/recoilme-gemma2-9B-v0.4 또는 gemma3-4b-it
- 학습 방식: QLoRA
- 프레임워크: peft, bitsandytes, accelerate
최적화 기법 요약
- QLoRA: GPU 메모리 최소화(4bit 양자화) + 빠른 학습
- PEFT(Parameter-Efficient Fine-Tuning): 핵심 계층만 학습, 적은 자원으로 효과적인 파인튜닝
- Eearly stopping, dropout: 과적합 방지
4.최적화 적용 후 기대 성능 지표 정의
성능지표 |
기준 |
기댓값(최적화 후) |
설명 |
MBTI 축별 정확도 |
약 75% |
80% 이상 |
축 단위 이진 분류 정확도 |
추론 속도 |
약 2-5초 |
0.8-1.2초 |
축 별로 판단하는 기존 방식에서, 한 번의 판단으로 알 수 있도록 조정 -> 추론 속도 1/4 |
모델 사이즈 |
4b |
2GB(adapter) |
배포 시 로드 속도 빠름 |
구조 복잡도 |
RAG+LLM+DB |
단일 LLM + DB 구조 |
배포 단순화 |