[V1.5] [임베딩 모델] 모델 비교 및 변경 사유 - 100-hours-a-week/6-nemo-ai GitHub Wiki
임베딩 모델 비교 보고서 (jinaai vs e5-small-v2)
🔍✅ 개요
본 프로젝트 네모는 사용자 문장을 기반으로 비슷한 관심사, 상황, 맥락을 연결하는 커뮤니티 중심 플랫폼입니다. 이를 위해 문장의 의미를 잘 구분하고 연결할 수 있는 벡터 임베딩 모델이 필요합니다.
이에 따라 아래 두 모델을 비교하였습니다:
jinaai/jina-embeddings-v3
(transformers 기반)intfloat/e5-small-v2
(sentence-transformers 기반)
✅ 테스트 세부 내용
기준 문장: 나는 로봇공학을 전공하고 있어요.
이 문장을 기준으로 다른 8개의 문장과의 코사인 유사도를 측정하였습니다.
✅ 유사도 결과 비교
비교 문장 | jinaai/v3 유사도 | e5-small-v2 유사도 |
---|---|---|
오늘 날씨가 정말 좋네요. | 0.5508 | 0.9828 |
기분 좋은 하루입니다. | 0.5547 | 0.9690 |
비가 와서 우울해요. | 0.5078 | 0.9746 |
행복한 하루 되세요! | 0.5234 | 0.9564 |
운동은 건강에 좋아요. | 0.4844 | 0.9823 |
파이썬으로 데이터 분석을 해요. | 0.5547 | 0.9673 |
고양이는 귀엽고 강아지는 충성스러워요. | 0.4805 | 0.9811 |
개발자가 꿈이에요. | 0.6406 | 0.9804 |
✅ 분석 요약
📍 jinaai/jina-embeddings-v3
- 의미 기반 구분력이 우수하여 기술/비기술 문장을 잘 구분함
- 현실적인 유사도 분포 → 추천 시스템에 신뢰도 제공
- 기술 키워드 간 맥락 포착 가능 (예: 개발자, 파이썬)
📍 e5-small-v2
- 모든 문장과의 유사도가 과도하게 높음 (0.95 이상)
- 주제와 무관한 문장까지 유사도가 높아 구분력이 떨어짐
- 겉모양, 긍정 감정 등 포맷 기반 유사도가 강하게 반영됨
✅ 결론 및 제안
항목 | jinaai/v3 | e5-small-v2 |
---|---|---|
의미 기반 구분력 | ✅ 우수 | ❌ 낮음 |
기술 맥락 대응 | ✅ 좋음 | ✅ 좋음 |
감정/비관련 문장 필터링 | ✅ 명확 | ❌ 부족 |
유사도 신뢰도 | ✅ 현실적 | ❌ 과도하게 높음 |
네모 프로젝트 적합성 | 최적 | 낮음 |
✅ 최종 제안
jinaai/jina-embeddings-v3는 문장의 의미적 맥락을 구분하고 연결하는 데 있어 매우 적합하며,
본 프로젝트 네모의 핵심 기능인 관심사 기반 모임 추천, 연결, 알림 필터링 등에 강력한 기초가 됩니다.
따라서 본 모델을 기본 임베딩 모델로 채택할 것을 강력히 제안드립니다.
추가 참고 사항
intfloat/e5-small-v2
모델은 기본적으로 영어 모델입니다