[하이라이트 사진 추천] CLIP knows image aesthetics 논문 요약 - 100-hours-a-week/5-yeosa-wiki GitHub Wiki
1. 연구 목적
-
기존 IAA 모델은 ImageNet 분류 모델을 기반으로 하는데, 이들은 미적 요소(조명, 구도 등)에 둔감
→ CLIP은 자연어 기반 supervision을 받았기 때문에, 더 넓은 시각적 특성을 학습했을 가능성이 있음
가설: CLIP의 시각 인코더는 aesthetic feature(예: beautiful, balanced 등)를 자연스럽게 학습했을 것이다.
2. 실험 방식: 세 가지 점점 더 복잡한 단계로 검증
단계 | 설명 | 특징 |
---|---|---|
a. Prompting | 자연어 프롬프트로 미적 품질을 추론 | zero-shot, 훈련 없음 |
b. Linear Probing | CLIP의 이미지 임베딩 + 선형 회귀 | 일부 학습 (경량) |
c. Fine-tuning | 전체 CLIP 인코더 미세조정 | 성능 최상, 학습량 최대 |
a. Prompting (훈련 없이 CLIP만으로 예측)
- "a beautiful picture" vs. "a horrible picture" 등의 프롬프트로 이미지 평가
- Weighted cosine similarity를 통해 연속적 aesthetic score 도출
- 예시 프롬프트:
a [adjective] picture
a [adjective] picture of a [object]
← context-aware
- 결과: 단순 프롬프트만으로도 baseline보다 높은 정확도 (Accuracy ~0.75, Spearman ~0.54)
b. Linear Probing (CLIP 이미지 임베딩 + 선형 회귀)
- CLIP 이미지 인코더로부터 768D(ViT-L/14 모델. ViT-B/32 모델은 512D) 벡터 추출 → 선형 회귀
- AVA 데이터셋의 평균 aesthetic score를 예측
- 결과
- CLIP이 ImageNet 모델보다 정확도, Spearman, Pearson 모두 우수
- 특히 CLIP은 다양한 feature를 고르게 활용하는 반면, ImageNet은 특정 feature에 편중됨
c. Fine-tuning (CLIP 전체 미세조정)
- AVA 데이터셋에 대해 CLIP 이미지 인코더 전체 fine-tuning
- 출력: 10개 점수 분포, softmax, EMD loss 사용
- 결과
-
Fine-tuned CLIP은 기존 SOTA 모델들보다 빠르게 수렴하고 높은 정확도 달성
-
Accuracy: 0.816, Spearman: 0.731, Pearson: 0.741
→ NIMA, MUSIQ 등과 비슷하거나 더 우수
-