[하이라이트 사진 추천] CLIP knows image aesthetics 논문 요약 - 100-hours-a-week/5-yeosa-wiki GitHub Wiki

논문

1. 연구 목적

  • 기존 IAA 모델은 ImageNet 분류 모델을 기반으로 하는데, 이들은 미적 요소(조명, 구도 등)에 둔감

    → CLIP은 자연어 기반 supervision을 받았기 때문에, 더 넓은 시각적 특성을 학습했을 가능성이 있음

    가설: CLIP의 시각 인코더는 aesthetic feature(예: beautiful, balanced 등)를 자연스럽게 학습했을 것이다.


2. 실험 방식: 세 가지 점점 더 복잡한 단계로 검증

단계 설명 특징
a. Prompting 자연어 프롬프트로 미적 품질을 추론 zero-shot, 훈련 없음
b. Linear Probing CLIP의 이미지 임베딩 + 선형 회귀 일부 학습 (경량)
c. Fine-tuning 전체 CLIP 인코더 미세조정 성능 최상, 학습량 최대

a. Prompting (훈련 없이 CLIP만으로 예측)

  • "a beautiful picture" vs. "a horrible picture" 등의 프롬프트로 이미지 평가
  • Weighted cosine similarity를 통해 연속적 aesthetic score 도출
  • 예시 프롬프트:
    • a [adjective] picture
    • a [adjective] picture of a [object] ← context-aware
  • 결과: 단순 프롬프트만으로도 baseline보다 높은 정확도 (Accuracy ~0.75, Spearman ~0.54)

b. Linear Probing (CLIP 이미지 임베딩 + 선형 회귀)

  • CLIP 이미지 인코더로부터 768D(ViT-L/14 모델. ViT-B/32 모델은 512D) 벡터 추출 → 선형 회귀
  • AVA 데이터셋의 평균 aesthetic score를 예측
  • 결과
    • CLIP이 ImageNet 모델보다 정확도, Spearman, Pearson 모두 우수
    • 특히 CLIP은 다양한 feature를 고르게 활용하는 반면, ImageNet은 특정 feature에 편중됨

c. Fine-tuning (CLIP 전체 미세조정)

  • AVA 데이터셋에 대해 CLIP 이미지 인코더 전체 fine-tuning
  • 출력: 10개 점수 분포, softmax, EMD loss 사용
  • 결과
    • Fine-tuned CLIP은 기존 SOTA 모델들보다 빠르게 수렴하고 높은 정확도 달성

    • Accuracy: 0.816, Spearman: 0.731, Pearson: 0.741

      → NIMA, MUSIQ 등과 비슷하거나 더 우수