하이라이트 선정 CLIP 모델 선정 이유 - 100-hours-a-week/5-yeosa-wiki GitHub Wiki

1. 비교 요약

항목 NIMA CLIP 기반 평가
감성/스타일 이해 약함 (composition, mood에 둔감) 강함 ("beautiful", "nostalgic" 등의 표현에 민감)
zero-shot 가능성 없음 (반드시 fine-tuning 필요) Prompting만으로 점수 추정 가능
추론 효율성 (CPU) 중간 (CNN + softmax) 높음 (선형 probing 또는 프롬프트 기반 cosine 비교)
성능(Spearman 기준) 0.612 (논문 기준) 0.680 (Linear-Probing CLIP)
적합한 사용 시나리오 단일 aesthetic score 평가 태깅 + 하이라이트 선별 + 유사도 기반 정렬 등

2. 선정 이유

a. 카테고리 분류 및 Aesthetic Score 측정 모두에 활용 가능한 범용성

  • 하나의 임베딩으로 여러 작업을 처리 가능
    • CLIP은 텍스트-이미지 간 임베딩 비교가 가능하여, 태깅, 유사도 계산, aesthetic score 추정까지 모두 가능
  • Prompting 또는 Linear Probing을 통해 score 추정이 가능
    • 별도 fine-tuning 없이도 Aesthetic Assessmenet 성능을 유지하여, 단일 모델 사용이 용이함

b. 사전학습 모델로서 높은 성능과 확장성

  • NIMA보다 높은 aesthetic 평가 성능
    • 논문 기준 Spearman: CLIP 0.731 vs NIMA 0.612
  • 경량화된 추론 구조 유지 가능 (Linear Probing)
    • CLIP은 이미지 임베딩만 추출하고 간단한 회귀 모듈을 올려도 고성능이 가능 → CPU 환경에서도 적합

c. 우리 서비스 목적에 더 적합한 정보 표현

  • 여행/일상 사진의 정서적/미적 가치 판단에 강함
    • 단순히 밝은 사진, 중앙에 인물이 있는 사진보다도, 감성적이거나 유니크한 장면을 잘 포착함
  • CLIP 임베딩은 감정, 분위기 등 정성적 특징과도 잘 align됨
    • 예: "a nostalgic moment", "a chaotic market", "a peaceful trail" 등 감정 기반 프롬프트 가능

d. 다양한 스타일과 감성 표현을 반영한 학습 방식

  • 자연어 기반 사전학습 (language supervision)
    • CLIP은 "a beautiful sunset", "an ugly sweater" 같은 자연어로 학습되어, 단순한 구도나 밝기뿐 아니라 감성적이고 주관적인 aesthetic 표현까지 학습되어 있음
  • 스타일 요소 인식 가능 (composition, lighting, mood)
    • 기존 분류 모델 기반의 NIMA는 주로 사진의 구성 요소보다는 평균적 품질에 기반하여 판단하는 반면, CLIP은 더 풍부한 시각 정보를 포착함

3. 활용 전략

사용 방식 장점 온기 서비스에 적합 여부
Prompting (zero-shot) 빠름, 훈련 불필요 MVP에서 사용 가능
Linear Probing 훈련량 적고 성능 좋음 선형회귀 모델을 학습시켜야 하므로, 고도화를 위해 추가적으로 도입해야함
Fine-tuning 성능 최상 CLIP Embedding 한 번으로 분류 및 유사도 비교 등 모두 고려해야 하므로, FIne-tuning을 하는 것은 위험 부담이 있다고 생각
  • Fine-tuning이 가장 좋은 성능을 갖지만, CLIP 모델 자체를 Aesthetic Score에 맞춰 학습시키므로 CLIP 임베딩을 활용해 다양한 태스크를 수행하는 우리 서비스에는 적합하지 않음

  • Linear Probing은 단일 선형층만 학습했을 뿐인데도 Prompting보다 훨씬 좋음

    → 간단한 MLP나 회귀 모델을 추가해 Linear Probing 방식으로 CLIP 모델 활용