하이라이트 스코어에 CLIP을 활용할 수 있다? - 100-hours-a-week/5-yeosa-wiki GitHub Wiki

논문

🧠 논문 요약: CLIP은 미적 감각을 이해할 수 있는가?

✅ 연구 목적

기존 IAA 모델은 ImageNet 분류 모델을 기반으로 하는데, 이들은 미적 요소(조명, 구도 등)에 둔감함.

→ CLIP은 자연어 기반 supervision을 받았기 때문에, 더 넓은 시각적 특성을 학습했을 가능성이 있음.

가설: CLIP의 시각 인코더는 aesthetic feature(예: beautiful, balanced 등)를 자연스럽게 학습했을 것이다.


🔬 실험 방식: 세 가지 점점 더 복잡한 단계로 검증

단계 설명 특징
1. Prompting 자연어 프롬프트로 미적 품질을 추론 zero-shot, 훈련 없음
2. Linear Probing CLIP의 이미지 임베딩 + 선형 회귀 일부 학습 (경량)
3. Fine-tuning 전체 CLIP 인코더 미세조정 성능 최상, 학습량 최대

1️⃣ Prompting (훈련 없이 CLIP만으로 예측)

  • "a beautiful picture" vs. "a horrible picture" 등의 프롬프트로 이미지 평가
  • Weighted cosine similarity를 통해 연속적 aesthetic score 도출
  • 예시 프롬프트:
    • a [adjective] picture
    • a [adjective] picture of a [object] ← context-aware

✅ 결과: 단순 프롬프트만으로도 baseline보다 높은 정확도 (Accuracy ~0.75, Spearman ~0.54)


2️⃣ Linear Probing (CLIP 이미지 임베딩 + 선형 회귀)

  • CLIP 이미지 인코더로부터 768D 벡터 추출 → 선형 회귀
  • AVA 데이터셋의 평균 aesthetic score를 예측

✅ CLIP이 ImageNet 모델보다 정확도, Spearman, Pearson 모두 우수

✅ 특히 CLIP은 다양한 feature를 고르게 활용하는 반면, ImageNet은 특정 feature에 편중됨


3️⃣ Fine-tuning (CLIP 전체 미세조정)

  • AVA 데이터셋에 대해 CLIP 이미지 인코더 전체 fine-tuning
  • 출력: 10개 점수 분포, softmax, EMD loss 사용

✅ Fine-tuned CLIP은 기존 SOTA 모델들보다 빠르게 수렴하고 높은 정확도 달성

✅ Accuracy: 0.816, Spearman: 0.731, Pearson: 0.741

→ NIMA, MUSIQ 등과 비슷하거나 더 우수


💡 결론 및 의의

  • CLIP은 훈련 없이도 aesthetic 평가가 어느 정도 가능하며,
  • 간단한 선형 회귀만으로도 기존 full fine-tuned 모델에 필적하는 성능을 낼 수 있음
  • 미적 평가에 필요한 다양한 스타일/조명/감정적 표현을 자연어로부터 학습했다는 증거
  • 하이라이트 이미지 추출, 미적 정렬, 사진 추천 등에 실질적으로 적용 가능

✨ 온기 서비스에 적용하기 좋은 방식은?

사용 방식 장점 온기 서비스에 적합 여부
Prompting (zero-shot) 빠름, 훈련 불필요 MVP에서 사용 가능
Linear Probing 훈련량 적고 성능 좋음 선형회귀 모델을 학습시켜야 하므로, 고도화를 위해 추가적으로 도입해야함
Fine-tuning 성능 최상 CLIP Embedding 한 번으로 분류 및 유사도 비교 등 모두 고려해야 하므로, FIne-tuning을 하는 것은 위험 부담이 있다고 생각