8. 최종 통합 설계 및 회고 - 100-hours-a-week/20-real-wiki GitHub Wiki

📐 1. 서비스 아키텍처 다이어그램

image

📊 2. 단계별 설계 적용 결과 요약표

단계 주요 변경사항 성능/품질 향상 요약
1단계: 모델 API 설계 - FastAPI 기반 RESTful API 구축- /api/v1/chat 엔드포인트 구현 - 사용자 요청에 대한 안정적인 응답 제공- 오류 처리 및 상태 코드 명확화
2단계: 모델 추론 성능 최적화 - Qwen2.5-7B-Instruct 모델 선택- gpu_memory_utilization 조정 (0.8)- max_model_len 최적화 (2048) - 추론 속도 향상- 메모리 사용 효율화- 긴 문서 처리 가능
3단계: 서비스 아키텍처 모듈화 - API, 서비스 로직, 프롬프트 관리, 예외 처리 등 역할별 디렉토리 구조 설계- /api, /services, /schemas, /core, /model 등으로 계층 분리 - 코드 유지보수성 향상- 기능 확장 용이성 증가
4단계: LangChain 기반 멀티스텝 AI 구현 - RetrievalChain 구조 도입- PromptTemplate 활용 - 다양한 문서 소스 대응 가능- 유연한 질의응답 처리
5단계: RAG 적용 설계 - FAISS 벡터 DB 구축- multilingual-e5-large-instruct 임베딩 모델 사용 - 의미 기반 검색 정확도 향상- 다국어 문서 처리 능력 강화

📈 3. 현재 완성된 시스템의 성능/품질 평가

  • 응답 정확도
    → 의미 기반 검색을 통해 정확한 정보 제공

  • 처리 속도
    → 최적화된 모델 설정으로 빠른 응답 시간 확보
    → 평균 응답 시간: 약 18초

  • 다국어 지원
    → multilingual-e5 임베딩 모델 사용으로 다양한 언어 대응 가능

🧭 4. 프로젝트 수행에 대한 회고 및 평가

  • 배운 점

    • 모델 경량화와 캐시 전략 설정의 중요성 체감
    • 모듈화된 구조로 기능별 협업 가능성 확보
    • 사용자 중심 UX 설계의 필요성 학습
  • 어려움 및 해결

    • GPU 메모리 부족gpu_memory_utilization 조정으로 해결
    • 다양한 문서 포맷 처리 → LangChain 체인 구조 활용으로 해결

🔧 5. 앞으로의 개선 제안 및 계획

  • 기능 추가

    • 사용자 피드백 기반 평가 시스템 도입 (예: 별점/수정 요청)
    • 실시간 Notion 문서 업데이트 자동 반영
  • 최적화

    • 모델 경량화 및 추론 속도 향상
    • 양자화 및 LoRA 적용으로 추론 메모리 절감
    • 클라우드 기반 벡터 DB(Pinecone 등)로의 확장 고려
  • 연구 및 개발 방향

    • 다양한 도메인에 RAG 적용 사례 확대
    • 사용자 맞춤형 응답 생성에 대한 심화 연구

🧠 6. 전반적인 결론

현재 구축된 AI 모델 서빙 아키텍처는 다음과 같은 이유로 타당하고 적절함:

  • 효율성
    → 최적화된 모델 설정과 의미 기반 검색을 통해 높은 정확도와 빠른 응답 속도 달성

  • 유연성
    → 모듈화된 아키텍처 + LangChain의 체인 구조로 다양한 문서 형식 및 기능 확장 용이

  • 확장성
    → 클라우드 기반 벡터 DB와 도구 연동 확장을 통해 다양한 도메인 및 트래픽에 대응 가능

✅ 현재 구조는 실용성과 확장성을 모두 갖춘 적절한 선택입니다.