[AI] LLM 평가 프롬프트 개선 - 100-hours-a-week/2-hertz-wiki GitHub Wiki
개요
이 문서는 LLM(Large Language Model) 생성 결과물의 품질을 정확하게 평가하기 위한 프롬프트 개선 과정을 기록합니다.
총 4차례에 걸친 테스트를 통해 평가 지표의 변별력을 높이고 평가 안정성을 개선했습니다.
테스트 진행 과정
테스트 1: 정량/정성 혼합 평가
평가 지표 구성
- 정량/형식적 지표 (25점): JSON 형식, 필수 구조, 검색 정보 활용도, 정보 구체성, 톤앤매너, 안전성/적절성
- 정성/창의적 지표 (24점): Title 흥미도, Content 창의성, Content 재미, 정보 활용의 깊이
문제점
- 대부분 모델이 만점에 가까운 점수를 획득하여 변별력 부족
- 상세한 품질 차이를 구분하기 어려움
테스트 2: 주관적/정성적 평가 도입
평가 지표 (총 32점)
- 흥미도 및 몰입감 (6점)
- 정보 풍부함 (5점)
- 개인화 및 스토리텔링 (4점)
- 엔터테인먼트 가치 (3점)
- 가독성 및 구성 (2점)
- 예측 및 기대감 조성 (5점)
- 공감대 형성 및 심리적 연결 (4점)
- 데이터 활용의 창의성 (3점)
평가 결과
30개 데이터셋, 1회씩 평가
모델 | 후보1 | 후보2 | 후보3 | 후보4 | 후보5 | 후보6 | 후보7 | 후보8 | 후보9 | 후보10 |
---|---|---|---|---|---|---|---|---|---|---|
Qwen | 16.0 | 17.0 | 19.0 | 18.0 | 16.0 | 20.0 | 20.0 | 18.0 | 17.0 | 16.0 |
Claude | 32.0 | 32.0 | 32.0 | 30.0 | 32.0 | 32.0 | 32.0 | 32.0 | 32.0 | 28.0 |
ChatGPT | 25.0 | 29.0 | 26.0 | 29.0 | 32.0 | 32.0 | 30.0 | 31.0 | 29.0 | 32.0 |
3개 데이터셋, 10회 반복 평가
모델 | 반복1 | 반복2 | 반복3 | 반복4 | 반복5 | 반복6 | 반복7 | 반복8 | 반복9 | 반복10 |
---|---|---|---|---|---|---|---|---|---|---|
Qwen/후보1 | 16 | 18 | 15 | 19 | 14 | 18 | 17 | 19 | 20 | 15 |
Claude/후보1 | 32 | 32 | 32 | 32 | 32 | 32 | 29 | 32 | 32 | 28 |
ChatGPT/후보1 | 31 | 31 | 31 | 29 | 31 | 30 | 26 | 30 | 31 | 28 |
모델 | 평균 점수 | 표준편차 |
---|---|---|
Qwen/후보1 | 17.10점 | 1.92 |
Claude/후보1 | 31.30점 | 1.42 |
ChatGPT/후보1 | 29.80점 | 1.60 |
- Qwen은 중반대 점수, Claude와 ChatGPT는 여전히 만점에 가까운 점수
- Claude와 ChatGPT 간 변별력 확보 필요
테스트 3: 엄격한 평가 기준 적용
주요 개선사항
- 각 점수 구간별 상세한 기준 설정
- 점수 하향 요인 명시 (반복적/진부한 표현, 어색한 문체, 부정확한 정보 등)
- 만점 부여를 매우 제한적으로 설정
- 평가 결과에 구체적인 개선점 제시 의무화
평가 결과
30개 데이터셋, 1회씩 평가
모델 | 후보1 | 후보2 | 후보3 | 후보4 | 후보5 | 후보6 | 후보7 | 후보8 | 후보9 | 후보10 | 평균 |
---|---|---|---|---|---|---|---|---|---|---|---|
qwen | 16 | 15 | 13 | 12 | 11 | 17 | 14 | 15 | 13 | 14 | 14.00 |
claude | 24 | 26 | 29 | 22 | 30 | 29 | 29 | 31 | 30 | 25 | 27.50 |
chatgpt | 23 | 23 | 23 | 24 | 24 | 25 | 25 | 30 | 27 | 24 | 24.80 |
3개 데이터셋, 10회 반복 평가
모델/후보 | 반복1 | 반복2 | 반복3 | 반복4 | 반복5 | 반복6 | 반복7 | 반복8 | 반복9 | 반복10 |
---|---|---|---|---|---|---|---|---|---|---|
qwen/후보1 | 15 | 13 | 13 | 15 | 16 | 15 | 11 | 17 | 13 | 17 |
claude/후보1 | 28 | 25 | 29 | 28 | 22 | 28 | 23 | 23 | 21 | 25 |
chatgpt/후보1 | 24 | 24 | 25 | 24 | 23 | 23 | 24 | 24 | 24 | 24 |
모델/후보 | 평균 | 표준편차 |
---|---|---|
qwen/후보1 | 14.50 | 1.86 |
claude/후보1 | 25.20 | 2.75 |
chatgpt/후보1 | 23.90 | 0.54 |
- Claude와 ChatGPT 간 명확한 변별력 확보
- 만점이 아닌 점수로 개선 가능성 확보
- 문제점: Claude의 평가 점수 변동성이 큼 (표준편차 2.75)
테스트 4: 평가 안정성 개선
개선사항
- 만점 부여 기준을 프롬프트에서 제거
- 평가 일관성 향상에 집중
평가 결과
3개 데이터셋, 10회 반복 평가
모델/후보 | 반복1 | 반복2 | 반복3 | 반복4 | 반복5 | 반복6 | 반복7 | 반복8 | 반복9 | 반복10 |
---|---|---|---|---|---|---|---|---|---|---|
qwen/후보1 | 16 | 16 | 14 | 14 | 16 | 13 | 15 | 14 | 16 | 17 |
claude/후보1 | 26 | 25 | 28 | 30 | 31 | 28 | 26 | 31 | 27 | 28 |
chatgpt/후보1 | 25 | 30 | 30 | 26 | 25 | 25 | 21 | 22 | 24 | 23 |
모델/후보 | 평균 | 표준편차 |
---|---|---|
qwen/후보1 | 15.10 | 1.22 |
claude/후보1 | 28.00 | 2.00 |
chatgpt/후보1 | 25.10 | 2.84 |