[AI]2단계_모델_추론성능_최적화_유저행동기반_성향분석 - 100-hours-a-week/12-marong-Wiki GitHub Wiki

1.기존 모델 추론의 성능 지표 수집 및 문서화

동일한 사용자 피드 "나는 친구들이랑 노는게 재밌어" 입력 후, 아래 5개 모델의 MBTI 4축 (E, S, T, J) 예측 결과를 비교

프롬프팅 기반 모델 비교표

모델명 추론시간 의미있는 축(E) 변화 불필요한 축 변화
Gemini API 약 7초 있음 거의없음
recoilme/gemma-2-9B 약 1분 있음 있음
llama3.1_korean-8B 약 5분 있음 없음
llama3.2 3B 약 23분 없음 있음
gemma-3-4b-it 약 2분 없음 있음
deepseek-7b 약 4분 없음 없음
ktdsbaseLM v0.12 약 1분 20초 없음 없음
✔️ HyperCLOVAX-SEED-Text-Instruct-1.5B 14초 있음 거의 없음
HyperCLOVAX-SEED-Text-Instruct-0.5B 30초 있음 있음
Gemini API recoilme/gemma-2-9B llama3.1_korean-8B llama3.2 3B
✔️ gemma-3-4b-it deepseek-7b ktdsbaseLM v0.12 ✔️ HyperCLOVAX-SEED-Text-Instruct-1.5B HyperCLOVAX-SEED-Text-Instruct-0.5B

선정 모델

  • recoilme-gemma-2-9B
  • google/gemma-3-4b-it
  • ✔️ hyperCLOVAX-SEED-Text-Instruct-1.5B
  • hyperCLOVAX-SEED-Text-Instruct-0.5B

RAG 생성 후 성능 비교 (Chroma + MiniLM 기반)

모델명 평균 추론 시간 의미있는 축 변화 불필요한 축 변화 GPU 예약 메모리
recoilme-gemma-2-9B 약 1분 있음 있음 38792.58 MB
google/gemma-3-4b-it 약 1분 있음 있음 22380.0 MB
✔️ hyperCLOVAX-SEED-Text-Instruct-1.5B 14초 있음 거의 없음 3.414GB
hyperCLOVAX-SEED-Text-Instruct-0.5B 30초 있음 있음 1.281GB
recoilme-gemma-2-9B google/gemma-2-4b HyperCLOVAX-SEED-Text-Instruct-1.5B HyperCLOVAX-SEED-Text-Instruct-0.5B

GPU 사용률과 성능 모두 고려해 hyperCLOVAX-SEED-Text-Instruct-1.5B 채택 ✅

2.식별된 성능 병목 요소 및 원인 분석

모델명 병목요소 주요 원인 분석
Gemini API 수치 해석 한계 수치 추론보다 설명 생성에 집중
recoilme/gemma-2-9B 너무 큰 파라미터 수 -
llama3.1_korean-8B 추론 지연 파라미터 수 및 모델 아키텍처 복잡성
llama3.2 3B 품질저하 + 느림 한국어 지원 미흡 + 응답 편향
gemma-3-4b-it 정확도 분산 판단은 하지만 축 선택 정확도가 낮음
deepseek-7b 품질저하 + 느림 한국어 지원 미흡 + 응답 편향
ktdsbaseLM v0.12 품질저하 경량화로 인한 추론 능력 저하
✔️ HyperCLOVAX-SEED-Text-Instruct-1.5B - -
HyperCLOVAX-SEED-Text-Instruct-0.5B - 추론 능력 저하

3.적용할 최적화 기법 구체 계획 수립

최적화 목표

벡터 유사도 검색을 제거하고, QLoRA 기반 경량화 모델 추론 방식을 도입

파인튜닝 데이터

  • 학습데이터: Korean_MBIT-Dataset

모델 및 학습 방식

  • 베이스 모델: rocoilme/recoilme-gemma2-9B-v0.4 또는 gemma3-4b-it
  • 학습 방식: QLoRA
  • 프레임워크: peft, bitsandytes, accelerate

최적화 기법 요약

  • QLoRA: GPU 메모리 최소화(4bit 양자화) + 빠른 학습
  • PEFT(Parameter-Efficient Fine-Tuning): 핵심 계층만 학습, 적은 자원으로 효과적인 파인튜닝
  • Eearly stopping, dropout: 과적합 방지

4.최적화 적용 후 기대 성능 지표 정의

성능지표 기준 기댓값(최적화 후) 설명
MBTI 축별 정확도 약 75% 80% 이상 축 단위 이진 분류 정확도
추론 속도 약 2-5초 0.8-1.2초 축 별로 판단하는 기존 방식에서, 한 번의 판단으로 알 수 있도록 조정 -> 추론 속도 1/4
모델 사이즈 4b 2GB(adapter) 배포 시 로드 속도 빠름
구조 복잡도 RAG+LLM+DB 단일 LLM + DB 구조 배포 단순화