[V2] 챗봇 v3 설계 문서 - 100-hours-a-week/6-nemo-ai GitHub Wiki

🤖 챗봇 v3 설계 문서 (SSE + WebSocket + vLLM)

[사용자 FE]
│
▼ (SSE)
[Backend API (FastAPI)]
│
▼ (WebSocket)
[AI 처리 서버]
│
▼ (SSE)
[vLLM]

구간	통신 방식	설명
✅ FE ↔ BE	SSE (Server-Sent Events)	클라이언트가 AI 응답을 실시간으로 수신
✅ BE ↔ AI 모듈	WebSocket	FastAPI WebSocket 서버에서 메시지 수신 처리
✅ AI ↔ vLLM	SSE	`stream_vllm_response()` 함수로 청크 단위 생성

목적: 사용자의 응답 기반으로 다음 질문 + 선택지 생성
흐름:
1. answer를 포함한 요청 수신
2. vLLM SSE를 통해 질문 텍스트 청크 생성
3. 청크별로 WebSocket → BE → SSE로 스트리밍
4. 질문 완료 후 options 전송
응답 타입:
- QUESTION_CHUNK
- QUESTION_OPTIONS

목적: 사용자 메시지 히스토리를 기반으로 그룹 추천
흐름:
1. 전체 대화 메시지 리스트를 전달
2. 유사 그룹 탐색 + vLLM으로 추천 이유 생성
3. 추천되는 그룹 ID 전송
4. 이유 텍스트를 청크로 전송
응답 타입:
- RECOMMEND_ID
- RECOMMEND_REASON
- RECOMMEND_DONE

요소	설명
`websocket_endpoint()`	WebSocket 수신 루프
`ping_loop()`	연결 상태 주기 확인용 Ping
`websocket_manager`	`session_id` 기준 연결 관리
`stream_question_chunks()`	질문 생성 + 청크 스트리밍
`stream_recommendation_chunks()`	추천 이유 생성 + 스트리밍

사용자 → BE (SSE 요청 시작)
BE → AI (WebSocket 전송: { type: "RECOMMEND_REQUEST", payload: { messages } })
AI → vLLM: 사용자 히스토리 기반 추천 이유 생성
AI → BE:
- RECOMMEND_ID: 추천된 그룹 ID
- RECOMMEND_REASON: 이유 텍스트 청크
- RECOMMEND_DONE: 완료 시그널