7 단계: 서비스 인프라 확장성과 모니터링 설계 - 100-hours-a-week/6-nemo-wiki GitHub Wiki

서비스 인프라 및 아키텍처 발전 과정 개요

1. 프로젝트 개요

본 프로젝트는 사람들이 손쉽게 모임을 만들고 참여할 수 있도록 지원하는 커뮤니티 기반 플랫폼을 구축하는 것을 목표로 한다.
초기에는 빠른 MVP 출시를 중점으로 개발했으며, 이후 사용자 수 증가와 서비스 확장을 대비하여 인프라를 지속적으로 고도화하고 있다.
이에 따라 Version 1 → Version 2 → Version 3으로 점진적인 인프라 발전 과정을 거치고 있다.


2. 버전별 발전 개요

버전 주요 변화
Version 1 (MVP) Google Gemini API를 호출하는 간단한 구조, FastAPI 서버를 통한 외부 AI 요청 처리
Version 2 로컬 LLM 모델을 직접 운영, Docker 컨테이너화 및 AutoScaling 그룹 기반 확장성 확보
Version 3 (준비 중) AWS EC2로 Frontend/Backend를 이관하고, GCP AI 서버 유지하는 Cross-Cloud 구조 확장 예정

3. 각 버전 요약 비교

Version 1: MVP (외부 API 호출 기반)

  • 목적: 빠른 MVP 구축 및 시장 반응 검증
  • 구성:
    • FastAPI 서버가 Google Gemini API를 호출
    • Spring Boot Backend + Next.js Frontend
    • MySQL, Redis, ChromaDB 운영
  • 특징:
    • 단일 Compute Engine 서버
    • 퍼블릭/프라이빗 서브넷 구분
    • 기본적인 캐시, 모니터링 체계 마련
    • 부하 테스트 예정

Version 2: 로컬 LLM + Docker 기반 확장

  • 목적: 외부 API 의존성 제거, 로컬 AI 모델 운영
  • 구성:
    • FastAPI 서버 + 자체 LLM 모델 추론
    • Spring Boot + Next.js + Cloud SQL + Redis + ChromaDB
    • Docker 기반 단일 컨테이너 배포
    • MIG(Multi Instance Group) 기반 AutoScaling 적용
  • 특징:
    • HTTPS Load Balancer, Cloud Armor, CDN 적용
    • VPC Peering을 통한 서비스 서버와 AI 서버 분리
    • Redis를 통한 캐시 및 메시지 큐 처리
    • Prometheus + Grafana 모니터링 고도화 준비

Version 3: Cross-Cloud 아키텍처 (준비 중)

  • 목적: 인프라 이중화 및 실 트래픽 대응 강화
  • 구성 예정:
    • AWS EC2 기반 Frontend/Backend 운영
    • GCP 내 FastAPI + LLM 서버 유지
    • Cross-Cloud HTTPS 통신 구성
    • 대규모 부하 테스트 및 Auto Scaling 최적화
  • 특징 예정:
    • 하이브리드 클라우드 운영
    • 멀티리전 DR(Disaster Recovery) 설계
    • Blue-Green / Canary 배포 전략 적용

4. 공통 핵심 설계 원칙

  • AI 요청 중심 FastAPI 서버 설계: 모든 AI 요청 흐름을 FastAPI 서버가 제어.
  • 수평 확장 구조: 모든 서버 구성요소를 AutoScaling 및 멀티 AZ를 염두에 두고 설계.
  • 캐시 최우선(Cache First) 전략: Redis 캐시를 활용한 부하 최소화 및 응답 속도 향상.
  • 모니터링 및 로깅 강화: Cloud Monitoring을 기본으로, Prometheus+Grafana로 확장 준비.
  • 보안 강화: Cloud Armor, HTTPS LB, WAF 도입을 통한 보안 체계 고도화.

5. 향후 계획

  • Version 3 인프라 구축 및 부하 테스트 완료
  • Cross-Cloud 통신 최적화
  • Kubernetes(GKE) 기반 오케스트레이션 검토
  • Redis Cluster 및 Kafka 기반 고가용성 메시지 처리 전환
  • Private Peering 및 멀티리전 DR 설계

요약

본 프로젝트의 인프라는

  • 빠른 MVP 구축 (V1)로컬 AI 기반 확장 (V2)Cross-Cloud 이중화 준비 (V3)
    라는 명확한 발전 방향성을 가지고 있으며,
    수평 확장, AI 중심 설계, 캐시 최적화, 보안 강화를 일관된 원칙으로 삼아 지속적으로 진화하고 있다.