99.꼬리질문 테스트.ipynb - 100-hours-a-week/9-team-Devths-WIKI GitHub Wiki
🧪 모델 & 하드웨어 선정 평가
https://colab.research.google.com/drive/1yUGnBoT6yIhRjhXVsxRk_xO1P73eZPOM?usp=sharing
목적: V2+ 자체 서빙을 위한 EXAONE AWQ 모델 벤치마크 테스트
참고 문서: 04_채팅_모델_선정.md, 05_꼬리질문_모델_선정.md
1. 평가 개요
평가 목적
- V2+ 자체 서빙을 위한 EXAONE AWQ 모델 최적 크기 결정 (7.8B vs 32B)
- 꼬리질문 생성 능력 및 맥락 파악 정확도 비교
- GPU 하드웨어 스펙 및 비용 최적화
평가 환경
| 항목 |
내용 |
| 런타임 |
Google Colab |
| 7.8B GPU |
NVIDIA L4 (24GB) |
| 32B GPU |
NVIDIA A100 40GB |
| 추론 |
Transformers + BitsAndBytes 4bit |
2. 후보 모델
모델 리스트
| 모델 |
파라미터 |
HuggingFace ID |
| EXAONE-3.5-7.8B-AWQ |
7.8B |
LGAI-EXAONE/EXAONE-3.5-7.8B-Instruct |
| EXAONE-3.5-32B-AWQ |
32B |
LGAI-EXAONE/EXAONE-3.5-32B-Instruct |
모델 크기별 특징
| 특징 |
7.8B |
32B |
| 필요 VRAM |
~8GB (4bit) |
~20GB (4bit) |
| 추론 속도 |
빠름 (~35 TPS) |
느림 (~20 TPS) |
| 꼬리질문 품질 |
75-80점 |
85-90점 ✅ |
3. 하드웨어 스펙 비교
GPU 옵션
| GPU |
VRAM |
시간당 비용 |
적합 모델 |
| NVIDIA T4 |
16GB |
~$0.50 |
7.8B (제한적) |
| NVIDIA L4 |
24GB |
~$0.80 |
7.8B ✅ |
| NVIDIA A10G |
24GB |
~$1.00 |
7.8B ✅ |
| NVIDIA A100 40GB |
40GB |
~$3.00 |
32B ✅ |
모델별 필요 VRAM
EXAONE 7.8B: ~8GB + KV Cache ~4GB = ~12GB 권장
EXAONE 32B: ~20GB + KV Cache ~8GB = ~28GB+ 권장
4. 성능 평가 지표
| 지표 |
설명 |
목표 |
| TTFT |
Time To First Token |
< 500ms |
| TPS |
Tokens Per Second |
> 30 tokens/sec |
| 꼬리질문 품질 |
관련성, 자연스러움 |
점수 80+ |
| JSON 준수율 |
형식 정확도 |
100% |
5. 비용 분석
GPU 서버 비용 (월간)
| 구성 |
시간당 |
월간 (24/7) |
| L4 × 1 (7.8B) |
$0.80 |
$576 |
| A100 × 1 (32B) |
$3.00 |
$2,160 |
Gemini API 비용 (Fallback)
- 입력: $0.075/1M tokens
- 출력: $0.30/1M tokens
- 예상 Fallback 비용: ~$1-5/월 (10-20% 분기 시)
손익분기점
- L4 (7.8B): 월 ~15,000 요청 이상이면 Gemini API 대비 효율적
6. 분기점 임계값
| 조건 |
임계값 |
대응 |
| vLLM 대기열 |
≥ 8 |
Gemini 분기 |
| 응답 타임아웃 |
> 10초 |
Gemini 분기 |
| 헬스 체크 실패 |
- |
Gemini Fallback |
7. 서버리스 전략
스케일링 정책
| 지표 |
스케일 업 |
스케일 다운 |
| GPU 사용률 |
> 80% (5분) |
< 30% (15분) |
| 대기열 크기 |
> 10 |
< 2 |
Cold Start 대응
- 최소 1대 Warm 인스턴스 유지
- Cold Start 동안 100% Gemini Fallback
8. 결론
최종 선정
| 항목 |
7.8B |
32B ✅ |
| 꼬리질문 품질 |
75-80점 |
85-90점 |
| 응답 시간 |
~10-15초 |
~20-30초 |
| 권장 용도 |
일반 채팅 |
면접 꼬리질문 |
| GPU |
L4 24GB |
A100 40GB |
| 월 비용 |
~$576 |
~$2,160 |
✅ 결론: 면접 모드(꼬리질문 생성)에는 EXAONE-3.5-32B 권장