[AI]2단계_모델_추론성능_최적화_미션_생성 - 100-hours-a-week/12-marong-Wiki GitHub Wiki

1. 모델별 마니또 미션 생성 성능 지표 및 문서화

유사도 기반 RAG 컨텍스트를 참고하여 LLM이 독자적으로 생성한 미션과 단순 재조합된 미션의 비율, 후처리 통과율, 생성 안정성 및 속도를 비교함.

이를 통해 정답 토큰과 예측 토큰의 CrossEntropy Loss 총합 최소화가 실질적으로 사용자에게 적합한 미션을 생성하는지 평가하기 어려운 부분을 보완하여 모델 성능에 대해 평가하였음. 각 모델은 50개의 미션을 생성하여 성능을 테스트함.

모델명 후처리 통과 비율(%) RAG 재사용률(%) 독자 생성 비율(%) 생성 속도 (50개) GPU 예약 메모리 비고
HyperCLOVA 1.5B 70% 약 70% 약 30% 약 3분 약 20GB 독창적 생성 가능하며 안정적
Polyglot 3.8B 50% 약 85% 약 15% 약 5분 약 15GB 독창적 생성 제한적으로 가능
LLaMA 2-7B 약 10% 약 80~90% 약 10% 약 7분 약 24GB 후처리 통과 실패 빈도 높음
Gemma 2B 0% 100% 0% 약 7분 약 8GB RAG 재사용, 독자 생성 실패

후처리 통과 기준: 명확성, 적합성, 과도성 필터링 포함(이미 생성된 내용과의 내용 중복도 제외, 그 기준은 별도 처리)

후처리 통과 비율, RAG 재사용률, 독자 생성 비율, 생성 속도, GPU 예약 메모리를 종합적으로 검토하였을 때, HyperCLOVA 1.5B를 미션 생성 모델로 채택하였음.

생성 예시

['마니띠의 컴퓨터 개발 공부 습관을 알아보기 🔍 (난이도: 중)', '마니띠가 가장 좋아하는 개발 언어는 무엇인지 알아보기 ❤️ 🔍 (난이도: 중)', '마니띠가 가장 좋아하는 개발자 이름을 알아보기 ❤️ 🔍 (난이도: 중)', ...(중략)'마니띠에게 최근 배운 프로그래밍 지식 중에 흥미로웠던 거 피드로 이야기하기 📸 (난이도: 하)']

2. 식별된 성능 병목 요소 및 원인 분석

  • RAG 컨텍스트에 포함된 문장 반복 및 재조합 빈도가 높아, LLM의 독자적 생성 능력 한계 확인됨
  • Gemma 모델은 후처리 필터를 통과할 만한 독창적 생성 능력 부족
  • Polyglot 및 LLaMA 모델은 단순 RAG 재조합 위주로 생성, 창의적 생성은 제한적
  • HyperCLOVA는 비교적 높은 독자 생성 비율을 보였으나, 일부 반복 표현 발생

3. 최적화 기법 및 개선 계획

후처리 필터링 강화 및 RAG 최소화

  • 후처리 로직 개선: RAG 기반 재조합 문장과 LLM 독자 생성 문장 구분 평가
  • RAG 컨텍스트 축소 실험: 최소한의 문맥만 제공하여 LLM의 생성 자유도 확대
  • 데이터셋 보강: LLM이 참조할 수 있는 미션 유형 및 표현 방식의 다양성 데이터셋 추가

모델 선택 기준 고도화

  • 독자 생성 비율이 높은 모델 우선
  • 속도와 VRAM 효율성 고려 (LLaMA, Polyglot, Gemma는 속도는 빠르나 성능 제한적)

4. 최적화 적용 후 기대 성능 지표 정의

  • 후처리 통과율: LLM이 생성한 미션 중 필터링을 통과한 미션 비율
  • RAG-독자 생성 비율: RAG에서 유래되지 않은 독립적인 미션의 생성 비율
  • 생성 안정성: 빈 리스트 발생률 및 실패율 (0% 목표)
  • 속도(50개 기준): 50개 생성 완료 시간 유지
  • PrecisionRecall (추후 미션 적용 후 사용자 반응에 따른 정밀도/재현율 평가)

추가 사항

  • 이번 평가에서 HyperCLOVA가 가장 높은 독자 생성 성능을 보였으며, Polyglot, LLaMA, Gemma 순으로 성능 저하