[AI] 10_인프라_확장성_모니터링 - 100-hours-a-week/9-team-Devths-WIKI GitHub Wiki

단계 7: 서비스 인프라 확장성과 모니터링

확장 가능한 배포 아키텍처 및 모니터링 체계 설계


Why: 우리 서비스에 왜 필요한가?

개발 환경과 운영 환경은 다릅니다. 실제 사용자 트래픽을 처리하려면:

  • 확장성: 사용자 증가 시 자동 대응
  • 안정성: 장애 발생 시 빠른 복구
  • 가시성: 실시간 성능 모니터링

인프라 진화 로드맵

버전 구성 스케일링 모니터링
V1 (MVP) EC2 + Docker 수동 기본 로깅
V2 Docker Compose + RunPod 수동 (replica) Grafana
V3 Kubernetes (GKE/EKS) 자동 (HPA) Prometheus + Grafana

V3 목표 아키텍처

┌─────────────────────────────────────────────────────────────────┐
│                    Kubernetes Cluster                            │
│                                                                  │
│  ┌──────────────────────────────────────────────────────────┐   │
│  │         AI Server Deployment (HPA: CPU > 70%)             │   │
│  │  ┌───────┐ ┌───────┐ ┌───────┐ ┌───────┐                 │   │
│  │  │ Pod 1 │ │ Pod 2 │ │ Pod 3 │ │ Pod N │ ← Auto Scale   │   │
│  │  └───────┘ └───────┘ └───────┘ └───────┘                 │   │
│  └──────────────────────────────────────────────────────────┘   │
│                              │                                   │
│                    ┌─────────▼─────────┐                        │
│                    │ Ingress / LB      │                        │
│                    └───────────────────┘                        │
└─────────────────────────────────────────────────────────────────┘

모니터링 지표

지표 경고 임계값 수집 방법
P95 응답 시간 > 10초 API 로그
에러율 > 5% 로그 집계
CPU 사용률 > 80% cAdvisor
API 비용 > $10/일 API 로그

예상 트래픽 및 인프라 계획

단계 DAU 동시 사용자 인프라
MVP 100명 10명 EC2 1대
V2 1,000명 50명 EC2 2대
V3 10,000명 200명 K8s (HPA)

결론

  • 점진적 확장: V1 → V2 → V3 단계적 진화
  • 자동 대응: HPA로 트래픽 변동 자동 처리
  • 가시성 확보: 실시간 모니터링으로 문제 조기 발견