[하이라이트 사진 추천] CLIP knows image aesthetics 논문 요약 - 100-hours-a-week/5-yeosa-wiki GitHub Wiki

1. 연구 목적

기존 IAA 모델은 ImageNet 분류 모델을 기반으로 하는데, 이들은 미적 요소(조명, 구도 등)에 둔감

→ CLIP은 자연어 기반 supervision을 받았기 때문에, 더 넓은 시각적 특성을 학습했을 가능성이 있음

가설: CLIP의 시각 인코더는 aesthetic feature(예: beautiful, balanced 등)를 자연스럽게 학습했을 것이다.

2. 실험 방식: 세 가지 점점 더 복잡한 단계로 검증

단계	설명	특징
a. Prompting	자연어 프롬프트로 미적 품질을 추론	zero-shot, 훈련 없음
b. Linear Probing	CLIP의 이미지 임베딩 + 선형 회귀	일부 학습 (경량)
c. Fine-tuning	전체 CLIP 인코더 미세조정	성능 최상, 학습량 최대

a. Prompting (훈련 없이 CLIP만으로 예측)

"a beautiful picture" vs. "a horrible picture" 등의 프롬프트로 이미지 평가
Weighted cosine similarity를 통해 연속적 aesthetic score 도출
예시 프롬프트:
- a [adjective] picture
- a [adjective] picture of a [object] ← context-aware
결과: 단순 프롬프트만으로도 baseline보다 높은 정확도 (Accuracy ~0.75, Spearman ~0.54)

b. Linear Probing (CLIP 이미지 임베딩 + 선형 회귀)

CLIP 이미지 인코더로부터 768D(ViT-L/14 모델. ViT-B/32 모델은 512D) 벡터 추출 → 선형 회귀
AVA 데이터셋의 평균 aesthetic score를 예측
결과
- CLIP이 ImageNet 모델보다 정확도, Spearman, Pearson 모두 우수
- 특히 CLIP은 다양한 feature를 고르게 활용하는 반면, ImageNet은 특정 feature에 편중됨

c. Fine-tuning (CLIP 전체 미세조정)

AVA 데이터셋에 대해 CLIP 이미지 인코더 전체 fine-tuning
출력: 10개 점수 분포, softmax, EMD loss 사용
결과
- Fine-tuned CLIP은 기존 SOTA 모델들보다 빠르게 수렴하고 높은 정확도 달성
- Accuracy: 0.816, Spearman: 0.731, Pearson: 0.741
  
  → NIMA, MUSIQ 등과 비슷하거나 더 우수