15_V2_채팅_모델_선정_변경.md - 100-hours-a-week/9-team-Devths-WIKI GitHub Wiki

V2 채팅 모델 선정 변경

작성 상태: 초안
최종 업데이트: 2026-02-09
관련 문서: 04_채팅_모델_선정.md, 05_꼬리질문_모델_선정.md


목차


1. 변경 개요 및 배경

1.1 기존 구조 (V1 / 04_채팅_모델_선정 기준)

  • 채팅 기능을 하나의 문서(04_채팅_모델_선정.md)에서 다루었고, Gemini Flash 단일 모델로 일반 대화·상담·RAG 답변을 처리하는 방안을 제안했다.
  • 면접 관련은 05_꼬리질문_모델_선정.md에서 기술/인성 면접·꼬리질문·평가를 함께 다루기 시작했다.

1.2 V2에서 이렇게 바꾼 이유

구분 변경 이유
역할 분리 “채팅”이 일반 질문 / 인성 면접 / 기술 면접으로 사용처가 다르므로, 모델·비용·품질 요구사항을 모드별로 나누어 정리할 필요가 있었다.
비용 최적화 평시 일반 질의응답 호출량이 매우 많아질 수 있어, vLLM EXAONE 8B 자체 서빙(Primary) + Gemini Flash(Fallback) 구조로 전환해 API 비용을 줄였다.
품질·프라이버시 인성/기술 면접의 질문·꼬리질문은 한국어 품질과 데이터 노출 최소화가 중요해, vLLM EXAONE 32B를 질문/꼬리질문용으로, Gemini API는 기술 면접 메인 질문·다양한 데이터 활용용으로 분리했다.
문서 가독성 한 문서에 모든 채팅 모드를 넣으면 길어지므로, 모드별 선정 문서 3개로 나누고, 이 문서(15번)에서 변경 이유와 목차만 제공하는 구조로 정리했다.

1.3 V2 채팅 모드 요약

모드 Primary 모델 Fallback / 보조 상세 문서
일반 질문 vLLM EXAONE 8B Gemini Flash 일반_질문_모델_선정.md
인성 면접 vLLM EXAONE 32B (질문 Q1~Q5) Gemini Flash (질문 장애 시) 인성_면접_모델_선정.md
기술 면접 Gemini API (메인 Q1~Q3) + vLLM 32B (꼬리질문) GPT-4o (메인 질문 장애 시) 기술_면접_모델_선정.md

면접 평가는 모드와 무관하게 동일한 2단계(Gemini Pro → GPT-4o+Gemini 토론)를 사용하며, 08_답변_평가_모델_선정.md에 정리되어 있다.


2. V2 채팅 모델 선정 (하위 문서)

아래 세 문서에서 각 모드별 요구사항, 후보 모델 비교, 최종 선정, 비용·구현 참조를 다룬다.

2.1 일반 질문 모델 선정

  • 대상: 평시 일반 채팅 (취업 상담, 이력서/포트폴리오 질문, RAG 기반 답변 등)
  • 내용: vLLM EXAONE 8B Primary + Gemini Flash Fallback 선정 근거, RAG 연동, 비용·구현 참조
  • 문서: 일반_질문_모델_선정.md

2.2 인성 면접 모델 선정

  • 대상: 인성 면접 모드 (Q1~Q5 고정, 꼬리질문 없음, 종료 후 평가)
  • 내용: 질문 생성용 vLLM EXAONE 32B, 평가 1·2단계(Gemini Pro, GPT-4o+Gemini) 역할 정리
  • 문서: 인성_면접_모델_선정.md

2.3 기술 면접 모델 선정

  • 대상: 기술 면접 모드 (메인 질문 Q1~Q3, 꼬리질문 최대 3뎁스, 종료 후 평가)
  • 내용: 메인 질문 Gemini API, 꼬리질문 vLLM EXAONE 32B, LangGraph·평가 연동
  • 문서: 기술_면접_모델_선정.md

문서 이력

날짜 내용
2026-02-09 초안: V2 채팅 모델 선정 변경 이유 및 하위 문서 목차 작성