하이라이트 스코어에 CLIP을 활용할 수 있다? - 100-hours-a-week/5-yeosa-wiki GitHub Wiki
🧠 논문 요약: CLIP은 미적 감각을 이해할 수 있는가?
✅ 연구 목적
기존 IAA 모델은 ImageNet 분류 모델을 기반으로 하는데, 이들은 미적 요소(조명, 구도 등)에 둔감함.
→ CLIP은 자연어 기반 supervision을 받았기 때문에, 더 넓은 시각적 특성을 학습했을 가능성이 있음.
가설: CLIP의 시각 인코더는 aesthetic feature(예: beautiful, balanced 등)를 자연스럽게 학습했을 것이다.
🔬 실험 방식: 세 가지 점점 더 복잡한 단계로 검증
단계 | 설명 | 특징 |
---|---|---|
1. Prompting | 자연어 프롬프트로 미적 품질을 추론 | zero-shot, 훈련 없음 |
2. Linear Probing | CLIP의 이미지 임베딩 + 선형 회귀 | 일부 학습 (경량) |
3. Fine-tuning | 전체 CLIP 인코더 미세조정 | 성능 최상, 학습량 최대 |
1️⃣ Prompting (훈련 없이 CLIP만으로 예측)
- "a beautiful picture" vs. "a horrible picture" 등의 프롬프트로 이미지 평가
- Weighted cosine similarity를 통해 연속적 aesthetic score 도출
- 예시 프롬프트:
a [adjective] picture
a [adjective] picture of a [object]
← context-aware
✅ 결과: 단순 프롬프트만으로도 baseline보다 높은 정확도 (Accuracy ~0.75, Spearman ~0.54)
2️⃣ Linear Probing (CLIP 이미지 임베딩 + 선형 회귀)
- CLIP 이미지 인코더로부터 768D 벡터 추출 → 선형 회귀
- AVA 데이터셋의 평균 aesthetic score를 예측
✅ CLIP이 ImageNet 모델보다 정확도, Spearman, Pearson 모두 우수
✅ 특히 CLIP은 다양한 feature를 고르게 활용하는 반면, ImageNet은 특정 feature에 편중됨
3️⃣ Fine-tuning (CLIP 전체 미세조정)
- AVA 데이터셋에 대해 CLIP 이미지 인코더 전체 fine-tuning
- 출력: 10개 점수 분포, softmax, EMD loss 사용
✅ Fine-tuned CLIP은 기존 SOTA 모델들보다 빠르게 수렴하고 높은 정확도 달성
✅ Accuracy: 0.816, Spearman: 0.731, Pearson: 0.741
→ NIMA, MUSIQ 등과 비슷하거나 더 우수
💡 결론 및 의의
- CLIP은 훈련 없이도 aesthetic 평가가 어느 정도 가능하며,
- 간단한 선형 회귀만으로도 기존 full fine-tuned 모델에 필적하는 성능을 낼 수 있음
- 미적 평가에 필요한 다양한 스타일/조명/감정적 표현을 자연어로부터 학습했다는 증거
- 하이라이트 이미지 추출, 미적 정렬, 사진 추천 등에 실질적으로 적용 가능
✨ 온기 서비스에 적용하기 좋은 방식은?
사용 방식 | 장점 | 온기 서비스에 적합 여부 |
---|---|---|
Prompting (zero-shot) | 빠름, 훈련 불필요 | MVP에서 사용 가능 |
Linear Probing | 훈련량 적고 성능 좋음 | 선형회귀 모델을 학습시켜야 하므로, 고도화를 위해 추가적으로 도입해야함 |
Fine-tuning | 성능 최상 | CLIP Embedding 한 번으로 분류 및 유사도 비교 등 모두 고려해야 하므로, FIne-tuning을 하는 것은 위험 부담이 있다고 생각 |