🧪 모델 & 하드웨어 선정 평가

https://colab.research.google.com/drive/1yUGnBoT6yIhRjhXVsxRk_xO1P73eZPOM?usp=sharing

목적: V2+ 자체 서빙을 위한 EXAONE AWQ 모델 벤치마크 테스트

참고 문서: 04_채팅_모델_선정.md, 05_꼬리질문_모델_선정.md

1. 평가 개요

평가 목적

V2+ 자체 서빙을 위한 EXAONE AWQ 모델 최적 크기 결정 (7.8B vs 32B)
꼬리질문 생성 능력 및 맥락 파악 정확도 비교
GPU 하드웨어 스펙 및 비용 최적화

평가 환경

항목	내용
런타임	Google Colab
7.8B GPU	NVIDIA L4 (24GB)
32B GPU	NVIDIA A100 40GB
추론	Transformers + BitsAndBytes 4bit

2. 후보 모델

모델 리스트

모델	파라미터	HuggingFace ID
EXAONE-3.5-7.8B-AWQ	7.8B	`LGAI-EXAONE/EXAONE-3.5-7.8B-Instruct`
EXAONE-3.5-32B-AWQ	32B	`LGAI-EXAONE/EXAONE-3.5-32B-Instruct`

모델 크기별 특징

특징	7.8B	32B
필요 VRAM	~8GB (4bit)	~20GB (4bit)
추론 속도	빠름 (~35 TPS)	느림 (~20 TPS)
꼬리질문 품질	75-80점	85-90점 ✅

3. 하드웨어 스펙 비교

GPU 옵션

GPU	VRAM	시간당 비용	적합 모델
NVIDIA T4	16GB	~$0.50	7.8B (제한적)
NVIDIA L4	24GB	~$0.80	7.8B ✅
NVIDIA A10G	24GB	~$1.00	7.8B ✅
NVIDIA A100 40GB	40GB	~$3.00	32B ✅

모델별 필요 VRAM

EXAONE 7.8B:  ~8GB + KV Cache ~4GB = ~12GB 권장
EXAONE 32B:   ~20GB + KV Cache ~8GB = ~28GB+ 권장

4. 성능 평가 지표

지표	설명	목표
TTFT	Time To First Token	< 500ms
TPS	Tokens Per Second	> 30 tokens/sec
꼬리질문 품질	관련성, 자연스러움	점수 80+
JSON 준수율	형식 정확도	100%

5. 비용 분석

GPU 서버 비용 (월간)

구성	시간당	월간 (24/7)
L4 × 1 (7.8B)	$0.80	$576
A100 × 1 (32B)	$3.00	$2,160

Gemini API 비용 (Fallback)

입력: $0.075/1M tokens
출력: $0.30/1M tokens
예상 Fallback 비용: ~$1-5/월 (10-20% 분기 시)

손익분기점

L4 (7.8B): 월 ~15,000 요청 이상이면 Gemini API 대비 효율적

6. 분기점 임계값

조건	임계값	대응
vLLM 대기열	≥ 8	Gemini 분기
응답 타임아웃	> 10초	Gemini 분기
헬스 체크 실패	-	Gemini Fallback

7. 서버리스 전략

스케일링 정책

지표	스케일 업	스케일 다운
GPU 사용률	> 80% (5분)	< 30% (15분)
대기열 크기	> 10	< 2

Cold Start 대응

최소 1대 Warm 인스턴스 유지
Cold Start 동안 100% Gemini Fallback

8. 결론

최종 선정

항목	7.8B	32B ✅
꼬리질문 품질	75-80점	85-90점
응답 시간	~10-15초	~20-30초
권장 용도	일반 채팅	면접 꼬리질문
GPU	L4 24GB	A100 40GB
월 비용	~$576	~$2,160

✅ 결론: 면접 모드(꼬리질문 생성)에는 EXAONE-3.5-32B 권장

99.꼬리질문 테스트.ipynb - 100-hours-a-week/9-team-Devths-WIKI GitHub Wiki

🧪 모델 & 하드웨어 선정 평가

1. 평가 개요

평가 목적

평가 환경

2. 후보 모델

모델 리스트

모델 크기별 특징

3. 하드웨어 스펙 비교

GPU 옵션

모델별 필요 VRAM

4. 성능 평가 지표

5. 비용 분석

GPU 서버 비용 (월간)

Gemini API 비용 (Fallback)

손익분기점

6. 분기점 임계값

7. 서버리스 전략

스케일링 정책

Cold Start 대응

8. 결론

최종 선정

⚠️ GitHub.com Fallback ⚠️

99.꼬리질문 테스트.ipynb - 100-hours-a-week/9-team-Devths-WIKI GitHub Wiki

🧪 모델 & 하드웨어 선정 평가

1. 평가 개요

평가 목적

평가 환경

2. 후보 모델

모델 리스트

모델 크기별 특징

3. 하드웨어 스펙 비교

GPU 옵션

모델별 필요 VRAM

4. 성능 평가 지표

5. 비용 분석

GPU 서버 비용 (월간)

Gemini API 비용 (Fallback)

손익분기점

6. 분기점 임계값

7. 서버리스 전략

스케일링 정책

Cold Start 대응

8. 결론

최종 선정

⚠️ **GitHub.com Fallback** ⚠️

⚠️ GitHub.com Fallback ⚠️