[AI] LLM 평가 프롬프트 개선 - 100-hours-a-week/2-hertz-wiki GitHub Wiki

개요

이 문서는 LLM(Large Language Model) 생성 결과물의 품질을 정확하게 평가하기 위한 프롬프트 개선 과정을 기록합니다.

총 4차례에 걸친 테스트를 통해 평가 지표의 변별력을 높이고 평가 안정성을 개선했습니다.

테스트 진행 과정

테스트 1: 정량/정성 혼합 평가

평가 지표 구성

  • 정량/형식적 지표 (25점): JSON 형식, 필수 구조, 검색 정보 활용도, 정보 구체성, 톤앤매너, 안전성/적절성
  • 정성/창의적 지표 (24점): Title 흥미도, Content 창의성, Content 재미, 정보 활용의 깊이

문제점

  • 대부분 모델이 만점에 가까운 점수를 획득하여 변별력 부족
  • 상세한 품질 차이를 구분하기 어려움

테스트 2: 주관적/정성적 평가 도입

평가 지표 (총 32점)

  • 흥미도 및 몰입감 (6점)
  • 정보 풍부함 (5점)
  • 개인화 및 스토리텔링 (4점)
  • 엔터테인먼트 가치 (3점)
  • 가독성 및 구성 (2점)
  • 예측 및 기대감 조성 (5점)
  • 공감대 형성 및 심리적 연결 (4점)
  • 데이터 활용의 창의성 (3점)

평가 결과

30개 데이터셋, 1회씩 평가

모델 후보1 후보2 후보3 후보4 후보5 후보6 후보7 후보8 후보9 후보10
Qwen 16.0 17.0 19.0 18.0 16.0 20.0 20.0 18.0 17.0 16.0
Claude 32.0 32.0 32.0 30.0 32.0 32.0 32.0 32.0 32.0 28.0
ChatGPT 25.0 29.0 26.0 29.0 32.0 32.0 30.0 31.0 29.0 32.0

3개 데이터셋, 10회 반복 평가

모델 반복1 반복2 반복3 반복4 반복5 반복6 반복7 반복8 반복9 반복10
Qwen/후보1 16 18 15 19 14 18 17 19 20 15
Claude/후보1 32 32 32 32 32 32 29 32 32 28
ChatGPT/후보1 31 31 31 29 31 30 26 30 31 28
모델 평균 점수 표준편차
Qwen/후보1 17.10점 1.92
Claude/후보1 31.30점 1.42
ChatGPT/후보1 29.80점 1.60
  • Qwen은 중반대 점수, Claude와 ChatGPT는 여전히 만점에 가까운 점수
  • Claude와 ChatGPT 간 변별력 확보 필요

테스트 3: 엄격한 평가 기준 적용

주요 개선사항

  • 각 점수 구간별 상세한 기준 설정
  • 점수 하향 요인 명시 (반복적/진부한 표현, 어색한 문체, 부정확한 정보 등)
  • 만점 부여를 매우 제한적으로 설정
  • 평가 결과에 구체적인 개선점 제시 의무화

평가 결과

30개 데이터셋, 1회씩 평가

모델 후보1 후보2 후보3 후보4 후보5 후보6 후보7 후보8 후보9 후보10 평균
qwen 16 15 13 12 11 17 14 15 13 14 14.00
claude 24 26 29 22 30 29 29 31 30 25 27.50
chatgpt 23 23 23 24 24 25 25 30 27 24 24.80

3개 데이터셋, 10회 반복 평가

모델/후보 반복1 반복2 반복3 반복4 반복5 반복6 반복7 반복8 반복9 반복10
qwen/후보1 15 13 13 15 16 15 11 17 13 17
claude/후보1 28 25 29 28 22 28 23 23 21 25
chatgpt/후보1 24 24 25 24 23 23 24 24 24 24
모델/후보 평균 표준편차
qwen/후보1 14.50 1.86
claude/후보1 25.20 2.75
chatgpt/후보1 23.90 0.54
  • Claude와 ChatGPT 간 명확한 변별력 확보
  • 만점이 아닌 점수로 개선 가능성 확보
  • 문제점: Claude의 평가 점수 변동성이 큼 (표준편차 2.75)

테스트 4: 평가 안정성 개선

개선사항

  • 만점 부여 기준을 프롬프트에서 제거
  • 평가 일관성 향상에 집중

평가 결과

3개 데이터셋, 10회 반복 평가

모델/후보 반복1 반복2 반복3 반복4 반복5 반복6 반복7 반복8 반복9 반복10
qwen/후보1 16 16 14 14 16 13 15 14 16 17
claude/후보1 26 25 28 30 31 28 26 31 27 28
chatgpt/후보1 25 30 30 26 25 25 21 22 24 23
모델/후보 평균 표준편차
qwen/후보1 15.10 1.22
claude/후보1 28.00 2.00
chatgpt/후보1 25.10 2.84