15_V2_채팅_모델_선정_변경.md - 100-hours-a-week/9-team-Devths-WIKI GitHub Wiki
V2 채팅 모델 선정 변경
작성 상태: 초안
최종 업데이트: 2026-02-09
관련 문서:04_채팅_모델_선정.md,05_꼬리질문_모델_선정.md
목차
1. 변경 개요 및 배경
1.1 기존 구조 (V1 / 04_채팅_모델_선정 기준)
- 채팅 기능을 하나의 문서(
04_채팅_모델_선정.md)에서 다루었고, Gemini Flash 단일 모델로 일반 대화·상담·RAG 답변을 처리하는 방안을 제안했다. - 면접 관련은
05_꼬리질문_모델_선정.md에서 기술/인성 면접·꼬리질문·평가를 함께 다루기 시작했다.
1.2 V2에서 이렇게 바꾼 이유
| 구분 | 변경 이유 |
|---|---|
| 역할 분리 | “채팅”이 일반 질문 / 인성 면접 / 기술 면접으로 사용처가 다르므로, 모델·비용·품질 요구사항을 모드별로 나누어 정리할 필요가 있었다. |
| 비용 최적화 | 평시 일반 질의응답 호출량이 매우 많아질 수 있어, vLLM EXAONE 8B 자체 서빙(Primary) + Gemini Flash(Fallback) 구조로 전환해 API 비용을 줄였다. |
| 품질·프라이버시 | 인성/기술 면접의 질문·꼬리질문은 한국어 품질과 데이터 노출 최소화가 중요해, vLLM EXAONE 32B를 질문/꼬리질문용으로, Gemini API는 기술 면접 메인 질문·다양한 데이터 활용용으로 분리했다. |
| 문서 가독성 | 한 문서에 모든 채팅 모드를 넣으면 길어지므로, 모드별 선정 문서 3개로 나누고, 이 문서(15번)에서 변경 이유와 목차만 제공하는 구조로 정리했다. |
1.3 V2 채팅 모드 요약
| 모드 | Primary 모델 | Fallback / 보조 | 상세 문서 |
|---|---|---|---|
| 일반 질문 | vLLM EXAONE 8B | Gemini Flash | 일반_질문_모델_선정.md |
| 인성 면접 | vLLM EXAONE 32B (질문 Q1~Q5) | Gemini Flash (질문 장애 시) | 인성_면접_모델_선정.md |
| 기술 면접 | Gemini API (메인 Q1~Q3) + vLLM 32B (꼬리질문) | GPT-4o (메인 질문 장애 시) | 기술_면접_모델_선정.md |
면접 평가는 모드와 무관하게 동일한 2단계(Gemini Pro → GPT-4o+Gemini 토론)를 사용하며, 08_답변_평가_모델_선정.md에 정리되어 있다.
2. V2 채팅 모델 선정 (하위 문서)
아래 세 문서에서 각 모드별 요구사항, 후보 모델 비교, 최종 선정, 비용·구현 참조를 다룬다.
2.1 일반 질문 모델 선정
- 대상: 평시 일반 채팅 (취업 상담, 이력서/포트폴리오 질문, RAG 기반 답변 등)
- 내용: vLLM EXAONE 8B Primary + Gemini Flash Fallback 선정 근거, RAG 연동, 비용·구현 참조
- 문서: 일반_질문_모델_선정.md
2.2 인성 면접 모델 선정
- 대상: 인성 면접 모드 (Q1~Q5 고정, 꼬리질문 없음, 종료 후 평가)
- 내용: 질문 생성용 vLLM EXAONE 32B, 평가 1·2단계(Gemini Pro, GPT-4o+Gemini) 역할 정리
- 문서: 인성_면접_모델_선정.md
2.3 기술 면접 모델 선정
- 대상: 기술 면접 모드 (메인 질문 Q1~Q3, 꼬리질문 최대 3뎁스, 종료 후 평가)
- 내용: 메인 질문 Gemini API, 꼬리질문 vLLM EXAONE 32B, LangGraph·평가 연동
- 문서: 기술_면접_모델_선정.md
문서 이력
| 날짜 | 내용 |
|---|---|
| 2026-02-09 | 초안: V2 채팅 모델 선정 변경 이유 및 하위 문서 목차 작성 |