인성_면접_모델_선정.md - 100-hours-a-week/9-team-Devths-WIKI GitHub Wiki

인성 면접 모델 선정

최종 업데이트: 2026-02-09

📋 목차

1. 개요
2. 요구사항
3. 후보 모델 비교
4. 최종 선정
5. 인성 면접 모드 질문·평가 전략
6. 구현 참조
7. 향후 개선 방향

1. 개요

목적

인성 면접 모드(Personality Interview) 에서 사용할 질문 생성·평가 모델 구성을 정의한다.

정해진 5문(Q1~Q5) 인성 질문
각 질문에 대한 지원자 답변 수집
면접 종료 후 자동 평가 및 피드백 제공

인성 면접 모드의 특징

깊이보다는 폭과 일관성을 본다.
기술 스택보다 태도·커뮤니케이션·경험 서술이 핵심.
질문은 고정 5문, 꼬리질문 없음 (v2 기준).
면접이 끝난 뒤 한 번에 평가하는 구조.

2. 요구사항

요구사항	목표	우선순위
질문 품질	실제 인성 면접 수준의 자연스러운 질문	높음
일관성	5문 전체가 일관된 맥락·난이도 유지	높음
한국어 자연스러움	4.5/5.0 이상	높음
프라이버시	사용자 답변이 외부로 유출되지 않도록	높음
응답 속도	질문 생성 시 5초 이내, 평가는 10초 이내	중간
비용	면접 1회당 합리적 비용 (평가 포함)	중간

3. 후보 모델 비교

3.1 vLLM EXAONE-3.5-32B ✅ (질문 생성용)

개요

LG AI Research 한국어 특화 32B 모델
05_꼬리질문_모델_선정.md 벤치마크 결과 85~90점 품질
vLLM 서버로 자체 서빙 (A100 40GB GPU)

장점

✅ 한국어 자연스러움·맥락 이해 매우 우수
✅ JSON 형식·구조 준수율 100%
✅ 우리 서비스에 맞춘 인성 질문 템플릿·프롬프트 적용 용이
✅ 데이터가 외부로 나가지 않아 프라이버시 보장

단점

❌ 응답 속도 Gemini 대비 느림 (2030초, 꼬리질문 기준)
❌ A100 40GB 등 고가 GPU 필요, 인프라 비용↑

인성 면접은 5문 고정이며, 질문 생성이 실시간 반복되지 않으므로
다소 느려도 품질이 높은 32B 모델을 쓰는 것이 합리적이다.

3.2 Gemini Flash / Pro (비교용)

Gemini Flash

빠르고 저렴하지만, 인성 면접 질문은 도메인 특화 템플릿 + 일관된 톤이 중요하다.
v2에서는 인성 질문 세트가 비교적 안정적으로 정의되어 있어,
굳이 외부 API로 매번 생성할 필요성이 크지 않다.

Gemini Pro

복잡한 분석·평가에 적합, 실제로 면접 평가 단계에서 사용.
질문 생성은 vLLM 32B로 처리하고, 평가는 Gemini Pro에 맡기는 역할 분리가 더 자연스러움.

3.3 결론

질문 생성: vLLM EXAONE-3.5-32B (자체 서빙)
평가/분석: Gemini Pro + (선택적으로) OpenAI GPT-4o 토론 구조

4. 최종 선정

4.1 인성 면접 모드 모델 구성

단계	모델	역할	선정 근거
질문 생성 (Q1~Q5)	vLLM (EXAONE-3.5-32B)	5문 고정 인성 질문 생성	한국어 자연스러움·맥락 품질 우수, 프라이버시 보장
답변 수집	-	사용자 답변 저장 (세션/DB)	-
평가 1단계	Gemini Pro	전체 Q&A 분석·피드백 생성	심층 추론·STAR 분석에 적합
평가 2단계 (선택)	OpenAI GPT-4o + Gemini Pro	LLM 간 토론 기반 재분석	다양한 관점·합의된 최종 분석

4.2 설계 의도

질문 생성은 우리 쪽 GPU 서버에서 고품질로 담당
평가·분석은 클라우드 LLM(Gemini Pro / GPT-4o) 에 맡겨
- 인프라 비용과 API 비용의 밸런스를 맞추고
- 향후 평가 로직을 LangGraph 등으로 유연하게 확장 가능하도록 함

5. 인성 면접 모드 질문·평가 전략

5.1 질문 구조

[인성 면접 모드 진입]
    │
    ├─ Q1 → A1
    ├─ Q2 → A2
    ├─ Q3 → A3
    ├─ Q4 → A4
    └─ Q5 → A5
        │
        ▼
   [모의 면접 종료 버튼]
        │
        ▼
   [평가 1단계: Gemini Pro]
        │
        └─ (선택) [분석 결과 다시 받기] → [평가 2단계: GPT-4o + Gemini Pro 토론]

인성 면접에는 꼬리질문이 없다. (v2 기준)
각 질문은 인성·태도·협업·갈등 해결 등 서로 다른 측면을 커버하도록 설계한다.
vLLM 32B는 질문 세트 템플릿 + 후보 풀에서 조건에 맞는 질문을 생성·선택하는 형태로 사용 가능.

5.2 평가 1단계 (Gemini Pro)

입력: 전체 Q&A 로그 (Q1~Q5와 각 답변)
출력:
- 질문별 평가 (적절/부족/부적절)
- STAR 관점 분석 (Situation·Task·Action·Result)
- 종합 점수 및 인성·태도·커뮤니케이션에 대한 요약 피드백
- 개선 제안 (예: “상황 설명을 더 구체적으로”, “결과를 수치화하면 좋음”)

5.3 평가 2단계 (선택, GPT-4o + Gemini Pro 토론)

사용자가 “분석 결과 다시 받기” 버튼을 눌렀을 때만 호출
흐름 (요약):
1. GPT-4o가 동일 Q&A를 별도로 분석
2. Gemini Pro 분석과 GPT-4o 분석을 비교
3. 불일치 항목에 대해 토론 패턴으로 재검토 (LangGraph)
4. 합의된 최종 평가 + 더 정제된 피드백 제공

이 단계는 선택적이며, 비용을 통제하기 위해 기본은 1단계 평가만 제공한다.

6. 구현 참조

6.1 코드

3.model/app/domain/interview/graph.py — 인성/기술 면접 흐름 그래프
3.model/app/services/llm_service.py — Gemini Pro, GPT-4o 호출 래퍼
3.model/app/services/vllm_service.py — vLLM EXAONE 32B 호출
3.model/app/api/routes/v2/chat.py — 면접 모드 채팅 엔드포인트 (mode: personality)

6.2 설정

vLLM 32B 서버:
- VLLM_32B_BASE_URL
평가용 LLM:
- GOOGLE_API_KEY (Gemini Pro)
- OPENAI_API_KEY (GPT-4o)

7. 향후 개선 방향

인성 면접에서도 간단한 꼬리질문 1~2개를 붙여 깊이를 조금 더 가져갈지 검토
- 단, 기술 면접만큼 복잡한 3뎁스 구조는 필요하지 않음
질문 풀/시나리오를 더 확장하여, 직무·경력 수준별로 다른 인성 질문 세트를 제공
평가 결과를 RDB/VectorDB에 저장하여,
- 추후 분석(예: 인성 강점/약점 통계)
- 개인화 추천(예: 다음에 풀면 좋은 인성 질문)에도 활용 가능하게 확장

현재 기준으로는,

질문 품질·프라이버시를 중시하여 vLLM EXAONE 32B를 사용하고,
평가는 클라우드 LLM에 위임하는 구조가 인성 면접 모드에 가장 적합하다.