통합된 AI 서비스 아키텍처 다이어그램 및 설명 - 100-hours-a-week/6-nemo-wiki GitHub Wiki

네모 서비스 AI 아키텍처 문서

1. 최종 통합된 서비스 아키텍처 상세 설명

아키텍처 개요

네모 서비스는 다양한 사용자 요청을 안정적으로 처리하고, 고품질 AI 기반 기능을 제공하기 위해 FE/BE와 AI 서버를 완전히 분리한 분산 아키텍처를 구축했습니다. 본 아키텍처는 **Google Cloud Platform(GCP)**을 기반으로 운영되며, 수평적 확장성, 고가용성, 보안성을 최우선 목표로 설계되었습니다.

전체 시스템 구성

(1) 클라이언트 → 프론트엔드 서버

구성: Next.js 기반 UI/UX 서버
역할: 사용자 입력 수신 및 결과 시각화
특징: CloudFront CDN 적용, 전송 최적화

(2) 프론트엔드 서버 → 백엔드 서버

구성: Spring Framework
역할: 비즈니스 로직 처리 및 DB 접근
특징: Redis 기반 세션 관리

(3) 백엔드 서버 → AI 서버 (FastAPI)

구성: FastAPI + RAG
역할: AI 기능 전담 (텍스트 생성, 추천 등)
특징: 로컬 모델 기반 추론, LangChain 활용

(4) AI 서버 내부 구조

세부 구성	설명	기능
Context Reconstruction	문맥 보강 (AI DB 참조)	모임 요약, 검색 강화
Guardrail (Input)	사용자 입력 검증	비정상 요청 차단
Model Gateway (LangChain)	요청 분기 및 모델 호출	효율적 모델 라우팅
텍스트 생성 모델	주제 설명 및 추천 생성	짧은 소개, 상세 작성
챗봇용 모델	질문 응답 처리	자연스러운 대화 지원
Guardrail (Output)	출력 포맷 검증	품질 유지

데이터베이스 구성

MySQL: 주 데이터 저장소
Redis: 세션 및 임시 데이터 저장
ChromaDB: 임베딩 기반 벡터 검색
AI DB: 프롬프트 및 키워드 기록 저장 (RAG 문맥 보강용)

네트워크 및 인프라 구성

Load Balancer (HTTPS): 인입 트래픽 분산
Managed Instance Group (MIG): 오토스케일링
Cloud Armor (WAF): 웹 공격 방어
Cloud DNS: 글로벌 트래픽 최적화
Container Registry + Storage: Docker 이미지 관리
CI/CD Pipeline: GitHub Action 자동화 배포

아키텍처 순서 상세 흐름

클라이언트 → 프론트엔드 서버 요청
프론트엔드 → 백엔드 서버 API 호출
백엔드 → FastAPI AI 서버 요청
AI 서버:
- 입력 검증 (Guardrail)
- 문맥 보강 (Context Reconstruction)
- 모델 라우팅 및 호출 (LangChain)
- 결과 생성 후 출력 검증 (Guardrail)
결과를 백엔드 → 프론트엔드 → 사용자에게 전달

5. 앞으로의 개선 제안 및 계획

1) 로컬 모델 최적화 (LoRA 적용)

계획: 로컬 모델에 Low-Rank Adaptation(LoRA) 적용
기술 근거: 모델 경량 Fine-tuning 기법, 전체 모델 재학습 없이 빠른 도메인 적응 가능
기대 효과: 리소스 절약 + 서비스별 특화 모델 운영 용이

2) RAG 고도화

계획: 멀티 소스 RAG 적용 및 Chunk Embedding 최적화
기술 근거: 긴 문서 처리, 다양한 문맥 연동 강화
기대 효과: 검색된 정보의 커버리지 및 응답의 구체성 증대

3) Guardrail 정책 강화

계획: 다국어 민감 표현 탐지 및 금칙어 강화
기대 효과: 서비스 윤리성 및 신뢰성 강화

4) AI DB Read/Write 확장

계획: 주기적 히스토리 업데이트 자동화
기대 효과: 개인화 추천 정확도 지속 개선

6. 최종 결론: 설계 타당성 종합 평가

평가 항목	타당성 근거
확장성	오토스케일링 + 로컬 추론으로 대량 트래픽 대응
보안성	WAF + Guardrail 이중 보안
운영 효율성	풀 CI/CD 자동화, 오케스트레이션 최적화
서비스 품질	Context Reconstruction + 고도화된 RAG 적용
비용 최적화	외부 API 미사용, 로컬 추론 기반 비용 절감
기술 확장성	LangChain 통한 유연한 모델 관리 가능

종합 결론

네모 서비스 AI 아키텍처는 현재뿐만 아니라 미래 확장성과 기술 진화를 충분히 수용할 수 있도록 설계되었습니다.
고성능, 고확장성, 고신뢰성 아키텍처를 기반으로,
실시간 대응, 개인화 품질, 운용 비용 최적화 측면에서 뛰어난 경쟁력을 지속적으로 강화할 수 있습니다.