99.꼬리질문 테스트.ipynb - 100-hours-a-week/9-team-Devths-WIKI GitHub Wiki

🧪 모델 & 하드웨어 선정 평가

https://colab.research.google.com/drive/1yUGnBoT6yIhRjhXVsxRk_xO1P73eZPOM?usp=sharing

목적: V2+ 자체 서빙을 위한 EXAONE AWQ 모델 벤치마크 테스트

참고 문서: 04_채팅_모델_선정.md, 05_꼬리질문_모델_선정.md

1. 평가 개요

평가 목적

V2+ 자체 서빙을 위한 EXAONE AWQ 모델 최적 크기 결정 (7.8B vs 32B)
꼬리질문 생성 능력 및 맥락 파악 정확도 비교
GPU 하드웨어 스펙 및 비용 최적화

평가 환경

항목	내용
런타임	Google Colab
7.8B GPU	NVIDIA L4 (24GB)
32B GPU	NVIDIA A100 40GB
추론	Transformers + BitsAndBytes 4bit

2. 후보 모델

모델 리스트

모델	파라미터	HuggingFace ID
EXAONE-3.5-7.8B-AWQ	7.8B	`LGAI-EXAONE/EXAONE-3.5-7.8B-Instruct`
EXAONE-3.5-32B-AWQ	32B	`LGAI-EXAONE/EXAONE-3.5-32B-Instruct`

모델 크기별 특징

특징	7.8B	32B
필요 VRAM	~8GB (4bit)	~20GB (4bit)
추론 속도	빠름 (~35 TPS)	느림 (~20 TPS)
꼬리질문 품질	75-80점	85-90점 ✅

3. 하드웨어 스펙 비교

GPU 옵션

GPU	VRAM	시간당 비용	적합 모델
NVIDIA T4	16GB	~$0.50	7.8B (제한적)
NVIDIA L4	24GB	~$0.80	7.8B ✅
NVIDIA A10G	24GB	~$1.00	7.8B ✅
NVIDIA A100 40GB	40GB	~$3.00	32B ✅

모델별 필요 VRAM

EXAONE 7.8B:  ~8GB + KV Cache ~4GB = ~12GB 권장
EXAONE 32B:   ~20GB + KV Cache ~8GB = ~28GB+ 권장

4. 성능 평가 지표

지표	설명	목표
TTFT	Time To First Token	< 500ms
TPS	Tokens Per Second	> 30 tokens/sec
꼬리질문 품질	관련성, 자연스러움	점수 80+
JSON 준수율	형식 정확도	100%

5. 비용 분석

GPU 서버 비용 (월간)

구성	시간당	월간 (24/7)
L4 × 1 (7.8B)	$0.80	$576
A100 × 1 (32B)	$3.00	$2,160

Gemini API 비용 (Fallback)

입력: $0.075/1M tokens
출력: $0.30/1M tokens
예상 Fallback 비용: ~$1-5/월 (10-20% 분기 시)

손익분기점

L4 (7.8B): 월 ~15,000 요청 이상이면 Gemini API 대비 효율적

6. 분기점 임계값

조건	임계값	대응
vLLM 대기열	≥ 8	Gemini 분기
응답 타임아웃	> 10초	Gemini 분기
헬스 체크 실패	-	Gemini Fallback

7. 서버리스 전략

스케일링 정책

지표	스케일 업	스케일 다운
GPU 사용률	> 80% (5분)	< 30% (15분)
대기열 크기	> 10	< 2

Cold Start 대응

최소 1대 Warm 인스턴스 유지
Cold Start 동안 100% Gemini Fallback

8. 결론

최종 선정

항목	7.8B	32B ✅
꼬리질문 품질	75-80점	85-90점
응답 시간	~10-15초	~20-30초
권장 용도	일반 채팅	면접 꼬리질문
GPU	L4 24GB	A100 40GB
월 비용	~$576	~$2,160

✅ 결론: 면접 모드(꼬리질문 생성)에는 EXAONE-3.5-32B 권장