하이라이트 선정 CLIP 모델 선정 이유 - 100-hours-a-week/5-yeosa-wiki GitHub Wiki
1. 비교 요약
항목 | NIMA | CLIP 기반 평가 |
---|---|---|
감성/스타일 이해 | 약함 (composition, mood에 둔감) | 강함 ("beautiful", "nostalgic" 등의 표현에 민감) |
zero-shot 가능성 | 없음 (반드시 fine-tuning 필요) | Prompting만으로 점수 추정 가능 |
추론 효율성 (CPU) | 중간 (CNN + softmax) | 높음 (선형 probing 또는 프롬프트 기반 cosine 비교) |
성능(Spearman 기준) | 0.612 (논문 기준) | 0.680 (Linear-Probing CLIP) |
적합한 사용 시나리오 | 단일 aesthetic score 평가 | 태깅 + 하이라이트 선별 + 유사도 기반 정렬 등 |
2. 선정 이유
a. 카테고리 분류 및 Aesthetic Score 측정 모두에 활용 가능한 범용성
- 하나의 임베딩으로 여러 작업을 처리 가능
- CLIP은 텍스트-이미지 간 임베딩 비교가 가능하여, 태깅, 유사도 계산, aesthetic score 추정까지 모두 가능
- Prompting 또는 Linear Probing을 통해 score 추정이 가능
- 별도 fine-tuning 없이도 Aesthetic Assessmenet 성능을 유지하여, 단일 모델 사용이 용이함
b. 사전학습 모델로서 높은 성능과 확장성
- NIMA보다 높은 aesthetic 평가 성능
- 논문 기준 Spearman: CLIP 0.731 vs NIMA 0.612
- 경량화된 추론 구조 유지 가능 (Linear Probing)
- CLIP은 이미지 임베딩만 추출하고 간단한 회귀 모듈을 올려도 고성능이 가능 → CPU 환경에서도 적합
c. 우리 서비스 목적에 더 적합한 정보 표현
- 여행/일상 사진의 정서적/미적 가치 판단에 강함
- 단순히 밝은 사진, 중앙에 인물이 있는 사진보다도, 감성적이거나 유니크한 장면을 잘 포착함
- CLIP 임베딩은 감정, 분위기 등 정성적 특징과도 잘 align됨
- 예: "a nostalgic moment", "a chaotic market", "a peaceful trail" 등 감정 기반 프롬프트 가능
d. 다양한 스타일과 감성 표현을 반영한 학습 방식
- 자연어 기반 사전학습 (language supervision)
- CLIP은 "a beautiful sunset", "an ugly sweater" 같은 자연어로 학습되어, 단순한 구도나 밝기뿐 아니라 감성적이고 주관적인 aesthetic 표현까지 학습되어 있음
- 스타일 요소 인식 가능 (composition, lighting, mood)
- 기존 분류 모델 기반의 NIMA는 주로 사진의 구성 요소보다는 평균적 품질에 기반하여 판단하는 반면, CLIP은 더 풍부한 시각 정보를 포착함
3. 활용 전략
사용 방식 | 장점 | 온기 서비스에 적합 여부 |
---|---|---|
Prompting (zero-shot) | 빠름, 훈련 불필요 | MVP에서 사용 가능 |
Linear Probing | 훈련량 적고 성능 좋음 | 선형회귀 모델을 학습시켜야 하므로, 고도화를 위해 추가적으로 도입해야함 |
Fine-tuning | 성능 최상 | CLIP Embedding 한 번으로 분류 및 유사도 비교 등 모두 고려해야 하므로, FIne-tuning을 하는 것은 위험 부담이 있다고 생각 |
-
Fine-tuning이 가장 좋은 성능을 갖지만, CLIP 모델 자체를 Aesthetic Score에 맞춰 학습시키므로 CLIP 임베딩을 활용해 다양한 태스크를 수행하는 우리 서비스에는 적합하지 않음
-
Linear Probing은 단일 선형층만 학습했을 뿐인데도 Prompting보다 훨씬 좋음
→ 간단한 MLP나 회귀 모델을 추가해 Linear Probing 방식으로 CLIP 모델 활용