FastAPI server wiki - 100-hours-a-week/5-yeosa-wiki GitHub Wiki

🌩️ FastAPI server Wiki

이 위키는 ONGI 프로젝트의 FastAPI & AI 서버와 관련된 모든 내용을 문서화한 공간입니다. 각 섹션은 실제 구성 시 참고할 수 있도록 다이어그램, 도구, 정책 등을 포함하고 있습니다.

00. 컨벤션 및 세팅

01. 설계

a. API 설계

API 설계
- 인물분류 API 명세 수정

b. 모델 추론 성능 최적화

가. 사용 모델 검토

이미지 임베딩
- 후보 모델 개요 및 비교
- CLIP 모델 선정 이유
  - 성능 테스트 결과 요약
하이라이트 사진 추천
- 후보 모델 개요 및 비교
- CLIP 모델 선정 이유
인물 분류
- 후보 모델 개요 및 비교
- face-recognition 모델 선정 이유
스타일 변환
- 후보 모델 개요 및 비교, Stable diffusion 선정 이유

나. 성능 테스트

다. 모델 활용 플로우

라. 병목 요소 식별

병목 요소 식별

마. 최적화 계획과 기대 성능 지표

바. 태스크별 리소스 분배 방안

c. 서비스 아키텍처 모듈화

서비스 아키텍처 모듈화

d. 서비스 인프라 확장성과 모니터링 설계

e. 최종 통합 설계 및 회고

02. 기능 구현 및 개선

a. 카테고리 분류

구현 완료 사항
- V1 로직
- V2 로직(계층 구조 도입)
개선 계획

b. 중복 사진 판별

구현 완료 사항
- V1 로직(CLIP 활용)
- V2 로직(pHash + Hamming Distance 활용)

c. 저품질 사진 필터링

구현 완료 사항
- V1 로직(CLIP Prompt Embedding)
- V2 로직(OpenCV Laplacian Variance)

d. 하이라이트 사진 추천

구현 완료 사항
- V1 로직(Linear Probing)
개선 계획

e. 인물 분류

구현 완료 사항
- 인물 분류 성능 향상 (DBSCAN vs HDBSCAN 비교, 클러스터링 후처리 적용)
- GPU 서버에서 인물 분류 속도 최적화 시도

f. 관련 지식

03. 성능 및 아키텍처, 인프라 개선

a. 완료 사항

b. 향후 계획

메시지 큐 & Kafka 도입 계획
Python 성능 최적화(feat. HYPERCONNECT Tech Blog)
FLUX 1 Kontext dev 모델 서빙 과정

c. 관련 지식

FastAPI + Uvicorn 동작 원리
FastAPI 요청 처리 흐름
Python GIL 해제 연산의 병렬 처리 구조
[GPU 서버 이전] GPU-Cuda의 이해
[GPU 모델 병렬 처리] Single GPU Inference Using GPU to the Max Potential 요약
메시지 큐
[인프라] 리소스 사용량 제한 및 큐 적용 방안 탐색

04. 트러블 슈팅 / 리팩토링

a. 기능 구현 관련

b. 환경 관련

c. 관련 지식

05. 기술 선정 이유

⚠️ GitHub.com Fallback ⚠️