MCP 활용 설계 - 100-hours-a-week/5-yeosa-wiki GitHub Wiki

1. 아키텍처 개요

아키텍처 버전 흐름

버전	구조	주요 특징
v1	모놀리식	모든 태스크를 controller → service 흐름 내에서 동기 처리
v2	모놀리식 + 비동기 확장	CLIP 임베딩 후 duplicate/score/category/quality는 비동기 처리, 큐 + 워커 구조 도입
v3 (예정)	마이크로서비스 분리	CLIP 및 face_recognition 모델 로딩/임베딩 기능을 독립 서비스로 분리 예정

현재 시스템은 LLM을 포함하지 않지만, 다음과 같은 외부 시스템 혹은 서브 시스템과의 상호작용이 존재

항목	설명	외부 연계 여부
S3 이미지 로딩	사용자 이미지 URL은 pre-signed S3 URL로 전달되어 외부에서 로드	✅
Gemini 프롬프트 생성	스타일 변환을 위한 텍스트 프롬프트를 생성하기 위해 Gemini API를 호출하여 텍스트 생성	✅
Stable Diffusion 스타일 변환	Stable Diffusion 모델은 별도 GPU 서버에서 호출해 처리	✅
People (face clustering)	face_recognition 모델을 활용해 내부적으로 얼굴 분류	❌
CLIP 임베딩	현재 내부 서비스에서 수행 중 (v3에서는 분리 예정)	❌

**MCP (Model Context Protocol)**은 LLM 기반 애플리케이션이 외부 도구(API, DB, 파일 등)와 안전하고 유연하게 상호작용할 수 있도록 설계된 표준 프로토콜

MCP 조건	현재 서비스 상태	충족 여부
LLM이 클라이언트	❌ LLM 미사용. 모든 요청은 사용자 → REST API로 전달	❌
도구를 선언하고 선택	❌ Gemini, S3, GPU 서버는 controller/service에서 명시적 호출	❌
Context-aware 도구 호출	❌ 프롬프트나 입력 조건에 따라 도구가 바뀌지 않음	❌
권한 및 호출 관리 계층 필요	⚠️ 각 도구마다 인증 방식이 개별적으로 처리됨	부분적
표준 통신 프로토콜(JSON-RPC)	❌ HTTPS + REST 기반 API로 충분	❌

MCP를 도입하지 않음으로 인해 일부 구조적 한계는 존재하지만, 현재 서비스의 특성과 운영 환경을 고려할 때 이러한 한계는 시스템 안정성과 유연성에 실질적인 영향을 주지 않는다고 판단

→ 예: 직접 Gemini API, Stable Diffusion GPU 서버에 요청

→ 충분한 이유

→ 예: prompt_generator.py나 style_transformer.py가 특정 도구에 직접 의존

→ 충분한 이유

프롬프트 생성과 스타일 변환은 서비스 내부에서 기능 단위로 명확히 모듈화되어 있으며, 이를 통해 이미 내부 추상화 수준은 확보되어 있음
LLM이 컨텍스트에 따라 도구를 선택하는 구조가 아니라서, 도구 선택의 동적 추론이 필요하지 않음
향후 필요 시 interface 패턴 또는 tool abstraction 구조로 확장 가능하므로, 현재 시점에서는 간단하고 직관적인 결합이 오히려 유지보수에 유리

→ 예: Gemini → GPT, 스타일 모델 교체 등이 어렵다.

→ 충분한 이유

현재 프롬프트 생성, 스타일 변환 기능은 모두 단일 모듈로 분리되어 있어, 실제 교체가 필요할 때는 해당 모듈만 수정하면 됨
- 예를 들어, prompt_generator.py에서 Gemini API 호출을 GPT 호출로 바꾸는 건 비즈니스 로직에 영향 없이 가능
도구 교체 시 직접 호출 방식이 일관된 덕분에, 오히려 복잡한 추상화 없이 간결하게 교체 가능 (MCP 도입 대비 오버엔지니어링 방지)

→ 따라서 MCP는 현 시점에서 도입하지 않으며, 추후 확장에 대비한 기반만 유지