[V1.5] [임베딩 모델] 모델 비교 및 변경 사유 - 100-hours-a-week/6-nemo-ai GitHub Wiki

🔍 임베딩 모델 비교 보고서 (jinaai vs e5-small-v2)

✅ 개요

본 프로젝트 네모는 사용자 문장을 기반으로 비슷한 관심사, 상황, 맥락을 연결하는 커뮤니티 중심 플랫폼입니다. 이를 위해 문장의 의미를 잘 구분하고 연결할 수 있는 벡터 임베딩 모델이 필요합니다.

이에 따라 아래 두 모델을 비교하였습니다:

  • jinaai/jina-embeddings-v3 (transformers 기반)
  • intfloat/e5-small-v2 (sentence-transformers 기반)

✅ 테스트 세부 내용

기준 문장: 나는 로봇공학을 전공하고 있어요.

이 문장을 기준으로 다른 8개의 문장과의 코사인 유사도를 측정하였습니다.


✅ 유사도 결과 비교

비교 문장 jinaai/v3 유사도 e5-small-v2 유사도
오늘 날씨가 정말 좋네요. 0.5508 0.9828
기분 좋은 하루입니다. 0.5547 0.9690
비가 와서 우울해요. 0.5078 0.9746
행복한 하루 되세요! 0.5234 0.9564
운동은 건강에 좋아요. 0.4844 0.9823
파이썬으로 데이터 분석을 해요. 0.5547 0.9673
고양이는 귀엽고 강아지는 충성스러워요. 0.4805 0.9811
개발자가 꿈이에요. 0.6406 0.9804

✅ 분석 요약

📍 jinaai/jina-embeddings-v3

  • 의미 기반 구분력이 우수하여 기술/비기술 문장을 잘 구분함
  • 현실적인 유사도 분포 → 추천 시스템에 신뢰도 제공
  • 기술 키워드 간 맥락 포착 가능 (예: 개발자, 파이썬)

📍 e5-small-v2

  • 모든 문장과의 유사도가 과도하게 높음 (0.95 이상)
  • 주제와 무관한 문장까지 유사도가 높아 구분력이 떨어짐
  • 겉모양, 긍정 감정 등 포맷 기반 유사도가 강하게 반영됨

✅ 결론 및 제안

항목 jinaai/v3 e5-small-v2
의미 기반 구분력 ✅ 우수 ❌ 낮음
기술 맥락 대응 ✅ 좋음 ✅ 좋음
감정/비관련 문장 필터링 ✅ 명확 ❌ 부족
유사도 신뢰도 ✅ 현실적 ❌ 과도하게 높음
네모 프로젝트 적합성 최적 낮음

✅ 최종 제안

jinaai/jina-embeddings-v3는 문장의 의미적 맥락을 구분하고 연결하는 데 있어 매우 적합하며,

본 프로젝트 네모의 핵심 기능인 관심사 기반 모임 추천, 연결, 알림 필터링 등에 강력한 기초가 됩니다.

따라서 본 모델을 기본 임베딩 모델로 채택할 것을 강력히 제안드립니다.


추가 참고 사항

intfloat/e5-small-v2 모델은 기본적으로 영어 모델입니다