인성_면접_모델_선정.md - 100-hours-a-week/9-team-Devths-WIKI GitHub Wiki
인성 면접 모델 선정
최종 업데이트: 2026-02-09
📋 목차
1. 개요
목적
인성 면접 모드(Personality Interview) 에서 사용할 질문 생성·평가 모델 구성을 정의한다.
- 정해진 5문(Q1~Q5) 인성 질문
- 각 질문에 대한 지원자 답변 수집
- 면접 종료 후 자동 평가 및 피드백 제공
인성 면접 모드의 특징
- 깊이보다는 폭과 일관성을 본다.
- 기술 스택보다 태도·커뮤니케이션·경험 서술이 핵심.
- 질문은 고정 5문, 꼬리질문 없음 (v2 기준).
- 면접이 끝난 뒤 한 번에 평가하는 구조.
2. 요구사항
| 요구사항 | 목표 | 우선순위 |
|---|---|---|
| 질문 품질 | 실제 인성 면접 수준의 자연스러운 질문 | 높음 |
| 일관성 | 5문 전체가 일관된 맥락·난이도 유지 | 높음 |
| 한국어 자연스러움 | 4.5/5.0 이상 | 높음 |
| 프라이버시 | 사용자 답변이 외부로 유출되지 않도록 | 높음 |
| 응답 속도 | 질문 생성 시 5초 이내, 평가는 10초 이내 | 중간 |
| 비용 | 면접 1회당 합리적 비용 (평가 포함) | 중간 |
3. 후보 모델 비교
3.1 vLLM EXAONE-3.5-32B ✅ (질문 생성용)
개요
- LG AI Research 한국어 특화 32B 모델
05_꼬리질문_모델_선정.md벤치마크 결과 85~90점 품질- vLLM 서버로 자체 서빙 (A100 40GB GPU)
장점
- ✅ 한국어 자연스러움·맥락 이해 매우 우수
- ✅ JSON 형식·구조 준수율 100%
- ✅ 우리 서비스에 맞춘 인성 질문 템플릿·프롬프트 적용 용이
- ✅ 데이터가 외부로 나가지 않아 프라이버시 보장
단점
- ❌ 응답 속도 Gemini 대비 느림 (
2030초, 꼬리질문 기준) - ❌ A100 40GB 등 고가 GPU 필요, 인프라 비용↑
인성 면접은 5문 고정이며, 질문 생성이 실시간 반복되지 않으므로
다소 느려도 품질이 높은 32B 모델을 쓰는 것이 합리적이다.
3.2 Gemini Flash / Pro (비교용)
Gemini Flash
- 빠르고 저렴하지만, 인성 면접 질문은 도메인 특화 템플릿 + 일관된 톤이 중요하다.
- v2에서는 인성 질문 세트가 비교적 안정적으로 정의되어 있어,
굳이 외부 API로 매번 생성할 필요성이 크지 않다.
Gemini Pro
- 복잡한 분석·평가에 적합, 실제로 면접 평가 단계에서 사용.
- 질문 생성은 vLLM 32B로 처리하고, 평가는 Gemini Pro에 맡기는 역할 분리가 더 자연스러움.
3.3 결론
- 질문 생성: vLLM EXAONE-3.5-32B (자체 서빙)
- 평가/분석: Gemini Pro + (선택적으로) OpenAI GPT-4o 토론 구조
4. 최종 선정
4.1 인성 면접 모드 모델 구성
| 단계 | 모델 | 역할 | 선정 근거 |
|---|---|---|---|
| 질문 생성 (Q1~Q5) | vLLM (EXAONE-3.5-32B) | 5문 고정 인성 질문 생성 | 한국어 자연스러움·맥락 품질 우수, 프라이버시 보장 |
| 답변 수집 | - | 사용자 답변 저장 (세션/DB) | - |
| 평가 1단계 | Gemini Pro | 전체 Q&A 분석·피드백 생성 | 심층 추론·STAR 분석에 적합 |
| 평가 2단계 (선택) | OpenAI GPT-4o + Gemini Pro | LLM 간 토론 기반 재분석 | 다양한 관점·합의된 최종 분석 |
4.2 설계 의도
- 질문 생성은 우리 쪽 GPU 서버에서 고품질로 담당
- 평가·분석은 클라우드 LLM(Gemini Pro / GPT-4o) 에 맡겨
- 인프라 비용과 API 비용의 밸런스를 맞추고
- 향후 평가 로직을 LangGraph 등으로 유연하게 확장 가능하도록 함
5. 인성 면접 모드 질문·평가 전략
5.1 질문 구조
[인성 면접 모드 진입]
│
├─ Q1 → A1
├─ Q2 → A2
├─ Q3 → A3
├─ Q4 → A4
└─ Q5 → A5
│
▼
[모의 면접 종료 버튼]
│
▼
[평가 1단계: Gemini Pro]
│
└─ (선택) [분석 결과 다시 받기] → [평가 2단계: GPT-4o + Gemini Pro 토론]
- 인성 면접에는 꼬리질문이 없다. (v2 기준)
- 각 질문은 인성·태도·협업·갈등 해결 등 서로 다른 측면을 커버하도록 설계한다.
- vLLM 32B는 질문 세트 템플릿 + 후보 풀에서 조건에 맞는 질문을 생성·선택하는 형태로 사용 가능.
5.2 평가 1단계 (Gemini Pro)
- 입력: 전체 Q&A 로그 (Q1~Q5와 각 답변)
- 출력:
- 질문별 평가 (적절/부족/부적절)
- STAR 관점 분석 (Situation·Task·Action·Result)
- 종합 점수 및 인성·태도·커뮤니케이션에 대한 요약 피드백
- 개선 제안 (예: “상황 설명을 더 구체적으로”, “결과를 수치화하면 좋음”)
5.3 평가 2단계 (선택, GPT-4o + Gemini Pro 토론)
- 사용자가 “분석 결과 다시 받기” 버튼을 눌렀을 때만 호출
- 흐름 (요약):
- GPT-4o가 동일 Q&A를 별도로 분석
- Gemini Pro 분석과 GPT-4o 분석을 비교
- 불일치 항목에 대해 토론 패턴으로 재검토 (LangGraph)
- 합의된 최종 평가 + 더 정제된 피드백 제공
이 단계는 선택적이며, 비용을 통제하기 위해 기본은 1단계 평가만 제공한다.
6. 구현 참조
6.1 코드
3.model/app/domain/interview/graph.py— 인성/기술 면접 흐름 그래프3.model/app/services/llm_service.py— Gemini Pro, GPT-4o 호출 래퍼3.model/app/services/vllm_service.py— vLLM EXAONE 32B 호출3.model/app/api/routes/v2/chat.py— 면접 모드 채팅 엔드포인트 (mode: personality)
6.2 설정
- vLLM 32B 서버:
VLLM_32B_BASE_URL
- 평가용 LLM:
GOOGLE_API_KEY(Gemini Pro)OPENAI_API_KEY(GPT-4o)
7. 향후 개선 방향
- 인성 면접에서도 간단한 꼬리질문 1~2개를 붙여 깊이를 조금 더 가져갈지 검토
- 단, 기술 면접만큼 복잡한 3뎁스 구조는 필요하지 않음
- 질문 풀/시나리오를 더 확장하여, 직무·경력 수준별로 다른 인성 질문 세트를 제공
- 평가 결과를 RDB/VectorDB에 저장하여,
- 추후 분석(예: 인성 강점/약점 통계)
- 개인화 추천(예: 다음에 풀면 좋은 인성 질문)에도 활용 가능하게 확장
현재 기준으로는,
- 질문 품질·프라이버시를 중시하여 vLLM EXAONE 32B를 사용하고,
- 평가는 클라우드 LLM에 위임하는 구조가 인성 면접 모드에 가장 적합하다.