99.꼬리질문 테스트.ipynb - 100-hours-a-week/9-team-Devths-WIKI GitHub Wiki

🧪 모델 & 하드웨어 선정 평가

https://colab.research.google.com/drive/1yUGnBoT6yIhRjhXVsxRk_xO1P73eZPOM?usp=sharing

목적: V2+ 자체 서빙을 위한 EXAONE AWQ 모델 벤치마크 테스트

참고 문서: 04_채팅_모델_선정.md, 05_꼬리질문_모델_선정.md


1. 평가 개요

평가 목적

  • V2+ 자체 서빙을 위한 EXAONE AWQ 모델 최적 크기 결정 (7.8B vs 32B)
  • 꼬리질문 생성 능력 및 맥락 파악 정확도 비교
  • GPU 하드웨어 스펙 및 비용 최적화

평가 환경

항목 내용
런타임 Google Colab
7.8B GPU NVIDIA L4 (24GB)
32B GPU NVIDIA A100 40GB
추론 Transformers + BitsAndBytes 4bit

2. 후보 모델

모델 리스트

모델 파라미터 HuggingFace ID
EXAONE-3.5-7.8B-AWQ 7.8B LGAI-EXAONE/EXAONE-3.5-7.8B-Instruct
EXAONE-3.5-32B-AWQ 32B LGAI-EXAONE/EXAONE-3.5-32B-Instruct

모델 크기별 특징

특징 7.8B 32B
필요 VRAM ~8GB (4bit) ~20GB (4bit)
추론 속도 빠름 (~35 TPS) 느림 (~20 TPS)
꼬리질문 품질 75-80점 85-90점

3. 하드웨어 스펙 비교

GPU 옵션

GPU VRAM 시간당 비용 적합 모델
NVIDIA T4 16GB ~$0.50 7.8B (제한적)
NVIDIA L4 24GB ~$0.80 7.8B ✅
NVIDIA A10G 24GB ~$1.00 7.8B ✅
NVIDIA A100 40GB 40GB ~$3.00 32B ✅

모델별 필요 VRAM

EXAONE 7.8B:  ~8GB + KV Cache ~4GB = ~12GB 권장
EXAONE 32B:   ~20GB + KV Cache ~8GB = ~28GB+ 권장

4. 성능 평가 지표

지표 설명 목표
TTFT Time To First Token < 500ms
TPS Tokens Per Second > 30 tokens/sec
꼬리질문 품질 관련성, 자연스러움 점수 80+
JSON 준수율 형식 정확도 100%

5. 비용 분석

GPU 서버 비용 (월간)

구성 시간당 월간 (24/7)
L4 × 1 (7.8B) $0.80 $576
A100 × 1 (32B) $3.00 $2,160

Gemini API 비용 (Fallback)

  • 입력: $0.075/1M tokens
  • 출력: $0.30/1M tokens
  • 예상 Fallback 비용: ~$1-5/월 (10-20% 분기 시)

손익분기점

  • L4 (7.8B): 월 ~15,000 요청 이상이면 Gemini API 대비 효율적

6. 분기점 임계값

조건 임계값 대응
vLLM 대기열 ≥ 8 Gemini 분기
응답 타임아웃 > 10초 Gemini 분기
헬스 체크 실패 - Gemini Fallback

7. 서버리스 전략

스케일링 정책

지표 스케일 업 스케일 다운
GPU 사용률 > 80% (5분) < 30% (15분)
대기열 크기 > 10 < 2

Cold Start 대응

  • 최소 1대 Warm 인스턴스 유지
  • Cold Start 동안 100% Gemini Fallback

8. 결론

최종 선정

항목 7.8B 32B
꼬리질문 품질 75-80점 85-90점
응답 시간 ~10-15초 ~20-30초
권장 용도 일반 채팅 면접 꼬리질문
GPU L4 24GB A100 40GB
월 비용 ~$576 ~$2,160

결론: 면접 모드(꼬리질문 생성)에는 EXAONE-3.5-32B 권장

⚠️ **GitHub.com Fallback** ⚠️