LLM 모델 추론 성능 최적화 - 100-hours-a-week/6-nemo-ai GitHub Wiki

1. LLM 로컬 모델 비교 분석

Gemini API 기반 모델에서 로컬 추론으로 전환하기 위해 다음과 같은 Hugging Face 기반 모델들을 테스트하였다:

각 모델은 동일한 텍스트 생성 과제를 기준으로 CPU/GPU 환경에서 추론 시간, VRAM 사용량, 결과 품질을 비교하였다.

Model	추론 시간 (1건)	GPU 메모리 사용	응답 품질	비고
google/gemma-3-4b-it	80~85초	약 13~14GB	주제 일치 + 문법 안정성 우수	최종 선정, FastAPI 연동 완료
Qwen/Qwen2.5-3B-Instruct	24~28초	약 14~15GB	표현력 좋으나 지시 일관성 낮음	다국어 강점, 속도 다소 느림
kakaocorp/kanana-nano-2.1b-instruct	18~22초	약 8~9GB	다소 단순한 문장 구성	응답 구조 균일, 품질 보통 수준
naver-hyperclovax/HyperCLOVAX-SEED-Instruct-1.5B	15~20초	약 7~8GB	품질 보통, 마무리 부정확 빈도 있음	VRAM 효율적, 가벼운 과제에 적합

✅ 최종 선정 모델: google/gemma-3-4b-it

선정 사유:
- GPU 환경에서의 추론 속도 및 VRAM 소비 적정
- 한국어 문장 생성 품질 우수 (요약, 설명, 커리큘럼 모두 적용)
- FastAPI 연동 테스트 완료

❗Gemma-3-4b-it 모델은 특히 추론 시간이 가장 길었음에도 불구하고 출력 품질과 문장 안정성, 후처리 등의 강점을 바탕으로 최종 선정되었음.