하이라이트 선정 CLIP 모델 선정 이유 - 100-hours-a-week/5-yeosa-wiki GitHub Wiki

1. 비교 요약

항목	NIMA	CLIP 기반 평가
감성/스타일 이해	약함 (composition, mood에 둔감)	강함 ("beautiful", "nostalgic" 등의 표현에 민감)
zero-shot 가능성	없음 (반드시 fine-tuning 필요)	Prompting만으로 점수 추정 가능
추론 효율성 (CPU)	중간 (CNN + softmax)	높음 (선형 probing 또는 프롬프트 기반 cosine 비교)
성능(Spearman 기준)	0.612 (논문 기준)	0.680 (Linear-Probing CLIP)
적합한 사용 시나리오	단일 aesthetic score 평가	태깅 + 하이라이트 선별 + 유사도 기반 정렬 등

2. 선정 이유

a. 카테고리 분류 및 Aesthetic Score 측정 모두에 활용 가능한 범용성

하나의 임베딩으로 여러 작업을 처리 가능
- CLIP은 텍스트-이미지 간 임베딩 비교가 가능하여, 태깅, 유사도 계산, aesthetic score 추정까지 모두 가능
Prompting 또는 Linear Probing을 통해 score 추정이 가능
- 별도 fine-tuning 없이도 Aesthetic Assessmenet 성능을 유지하여, 단일 모델 사용이 용이함

b. 사전학습 모델로서 높은 성능과 확장성

NIMA보다 높은 aesthetic 평가 성능
- 논문 기준 Spearman: CLIP 0.731 vs NIMA 0.612
경량화된 추론 구조 유지 가능 (Linear Probing)
- CLIP은 이미지 임베딩만 추출하고 간단한 회귀 모듈을 올려도 고성능이 가능 → CPU 환경에서도 적합

c. 우리 서비스 목적에 더 적합한 정보 표현

여행/일상 사진의 정서적/미적 가치 판단에 강함
- 단순히 밝은 사진, 중앙에 인물이 있는 사진보다도, 감성적이거나 유니크한 장면을 잘 포착함
CLIP 임베딩은 감정, 분위기 등 정성적 특징과도 잘 align됨
- 예: "a nostalgic moment", "a chaotic market", "a peaceful trail" 등 감정 기반 프롬프트 가능

d. 다양한 스타일과 감성 표현을 반영한 학습 방식

자연어 기반 사전학습 (language supervision)
- CLIP은 "a beautiful sunset", "an ugly sweater" 같은 자연어로 학습되어, 단순한 구도나 밝기뿐 아니라 감성적이고 주관적인 aesthetic 표현까지 학습되어 있음
스타일 요소 인식 가능 (composition, lighting, mood)
- 기존 분류 모델 기반의 NIMA는 주로 사진의 구성 요소보다는 평균적 품질에 기반하여 판단하는 반면, CLIP은 더 풍부한 시각 정보를 포착함

3. 활용 전략

사용 방식	장점	온기 서비스에 적합 여부
Prompting (zero-shot)	빠름, 훈련 불필요	MVP에서 사용 가능
Linear Probing	훈련량 적고 성능 좋음	선형회귀 모델을 학습시켜야 하므로, 고도화를 위해 추가적으로 도입해야함
Fine-tuning	성능 최상	CLIP Embedding 한 번으로 분류 및 유사도 비교 등 모두 고려해야 하므로, FIne-tuning을 하는 것은 위험 부담이 있다고 생각

Fine-tuning이 가장 좋은 성능을 갖지만, CLIP 모델 자체를 Aesthetic Score에 맞춰 학습시키므로 CLIP 임베딩을 활용해 다양한 태스크를 수행하는 우리 서비스에는 적합하지 않음
Linear Probing은 단일 선형층만 학습했을 뿐인데도 Prompting보다 훨씬 좋음

→ 간단한 MLP나 회귀 모델을 추가해 Linear Probing 방식으로 CLIP 모델 활용