00_HOME - yojulab/learn_promptengineerings GitHub Wiki

ν”„λ‘¬ν”„νŠΈ μ—”μ§€λ‹ˆμ–΄λ§ 평가 및 μ΅œμ ν™” μ „λž΅ κ°€μ΄λ“œ

κ°œμš”

ν”„λ‘¬ν”„νŠΈ μ—”μ§€λ‹ˆμ–΄λ§μ—μ„œ LLM 응닡 ν’ˆμ§ˆμ„ μ²΄κ³„μ μœΌλ‘œ ν‰κ°€ν•˜κ³  μ΅œμ ν™”ν•˜κΈ° μœ„ν•œ 핡심 κ°œλ…κ³Ό μ‹€μŠ΅ 방법둠을 μ •λ¦¬ν•œ κ°€μ΄λ“œμž…λ‹ˆλ‹€.

1. ν”„λ‘¬ν”„νŠΈ ν‰κ°€μ˜ μ€‘μš”μ„±

graph TD
    A[ν”„λ‘¬ν”„νŠΈ 평가] --> B[문제점 νŒŒμ•…]
    A --> C[졜적 μ˜΅μ…˜ μ„ μ •]
    A --> D[μœ„ν—˜ μš”μ†Œ 발견]
    A --> E[μ„±λŠ₯ 좔적]
    
    B --> F[사싀 였λ₯˜ 식별]
    B --> G[톀 λΆ€μ μ ˆμ„± 발견]
    C --> H[λͺ¨λΈ κ°„ 비ꡐ]
    D --> I[ν’ˆμ§ˆ μ €ν•˜ 사전 감지]
    E --> J[κ°œμ„  좔이 λͺ¨λ‹ˆν„°λ§]
Loading

2. 핡심 평가 μ§€ν‘œ

μ§€ν‘œ μ„€λͺ… μ€‘μš”λ„
μ •ν™•μ„± 사싀적 정확도와 일관성, ν™˜κ° λ°©μ§€ πŸ”΄ μ΅œμš°μ„ 
일관성 μ—­ν• κ³Ό ν†€μ˜ 지속적 μœ μ§€ 🟑 μ€‘μš”
톀 μ μ ˆμ„± λŒ€μƒ μ‚¬μš©μžμ— λ§žλŠ” μ–΄μ‘° 🟑 μ€‘μš”
포맷/ꡬ쑰 μš”κ΅¬ ν˜•μ‹ μ€€μˆ˜ 및 논리적 ꡬ쑰 🟒 보톡

3. 평가 방법둠

3.1 객관적 평가 (루브릭 기반)

μž₯점:

  • ν‰κ°€μž κ°„ 편차 μ΅œμ†Œν™”
  • μˆ˜μΉ˜ν™”λœ 결과둜 μΆ”μ„Έ 뢄석 용이
  • μžλ™ν™” κ°€λŠ₯

단점:

  • λͺ¨λ“  ν’ˆμ§ˆ μš”μ†Œ μˆ˜μΉ˜ν™” 어렀움
  • 루브릭 μ„€κ³„μ˜ μ€‘μš”μ„±

3.2 주관적 평가 (μ‚¬μš©μž κ²½ν—˜ 기반)

μž₯점:

  • μŠ€νƒ€μΌ, μ°½μ˜μ„± λ“± 주관적 μš”μ†Œ 포착
  • 전체적인 μ‚¬μš©μž λ§Œμ‘±λ„ μΈ‘μ •

단점:

  • ν‰κ°€μžλ³„ κΈ°μ€€ 차이
  • 개인 편견 κ°œμž… κ°€λŠ₯μ„±
graph LR
    A[평가 방법] --> B[객관적 평가]
    A --> C[주관적 평가]
    
    B --> D[루브릭 기반<br/>μ μˆ˜ν™”]
    B --> E[μžλ™ν™” 용이]
    
    C --> F[μ‚¬μš©μž κ²½ν—˜<br/>기반]
    C --> G[정성적 ν”Όλ“œλ°±]
    
    D --> H[μ •λŸ‰ 뢄석]
    F --> I[μ •μ„± 뢄석]
    H --> J[μƒν˜Έ 보완]
    I --> J
Loading

4. LLM 기반 평가 μžλ™ν™”

4.1 LLM-as-a-Judge 접근법

핡심 단계:

  1. API μ„€μ •: OpenAI API ν΄λΌμ΄μ–ΈνŠΈ μ΄ˆκΈ°ν™”
  2. 평가 ν”„λ‘¬ν”„νŠΈ ꡬ성: 평가 κΈ°μ€€κ³Ό 점수 체계 λͺ…μ‹œ
  3. LLM 호좜: κ΅¬μ‘°ν™”λœ JSON 응닡 μš”μ²­
  4. 반볡 평가: λ‹€μˆ˜ ν”„λ‘¬ν”„νŠΈ-응닡 쌍 처리
  5. 데이터 μˆ˜μ§‘: Pandas DataFrame으둜 정리
  6. μ‹œκ°ν™”: κ·Έλž˜ν”„λ₯Ό ν†΅ν•œ κ²°κ³Ό 뢄석

4.2 평가 ν”„λ‘¬ν”„νŠΈ μ˜ˆμ‹œ

당신은 λ‹΅λ³€ μ‹¬μ‚¬μœ„μ›μž…λ‹ˆλ‹€. 
λ‹€μŒ κΈ°μ€€μœΌλ‘œ 1~5점 평가:
- μ •ν™•μ„±: 사싀 뢀합도
- 일관성: μ—­ν• /톀 μœ μ§€
- 포맷: ν˜•μ‹ μ€€μˆ˜
JSON ν˜•μ‹μœΌλ‘œλ§Œ μ‘λ‹΅ν•˜μ„Έμš”.

5. Iterative Tuning μ „λž΅

ν”„λ‘¬ν”„νŠΈλ₯Ό μ§€μ†μ μœΌλ‘œ κ°œμ„ ν•˜λŠ” 반볡적 섀계 기법

flowchart TD
    A[초기 ν”„λ‘¬ν”„νŠΈ 섀계] --> B[λͺ¨λΈ 응닡 생성]
    B --> C[μžλ™ 평가 μˆ˜ν–‰]
    C --> D[κ²°κ³Ό 뢄석]
    D --> E{κ°œμ„  ν•„μš”?}
    E -->|Yes| F[ν”„λ‘¬ν”„νŠΈ μˆ˜μ •]
    F --> B
    E -->|No| G[μ΅œμ’… ν”„λ‘¬ν”„νŠΈ μ„ μ •]
    
    F --> H[μ§€μ‹œμ‚¬ν•­ λͺ…ν™•ν™”]
    F --> I[μ˜ˆμ‹œ μΆ”κ°€]
    F --> J[좜λ ₯ ν˜•μ‹ μ‘°μ •]
    F --> K[Chain-of-Thought μœ λ„]
Loading

5.1 κ°œμ„  μ „λž΅

μ „λž΅ μ„€λͺ… 적용 μ‹œμ 
μ§€μ‹œμ‚¬ν•­ λͺ…ν™•ν™” λͺ¨ν˜Έν•œ μ§€μ‹œλ₯Ό ꡬ체적으둜 μˆ˜μ • 초기 단계
Few-shot μ˜ˆμ‹œ μ˜¬λ°”λ₯Έ μ˜ˆμ‹œλ₯Ό ν”„λ‘¬ν”„νŠΈμ— 포함 ν˜•μ‹ 문제 λ°œμƒμ‹œ
좜λ ₯ νŒ¨ν„΄ μ§€μ • λͺ…μ‹œμ  좜λ ₯ ν˜•μ‹ μš”κ΅¬ 포맷 였λ₯˜μ‹œ
CoT μœ λ„ 단계별 사고 κ³Όμ • μš”κ΅¬ μΆ”λ‘  λ¬Έμ œμ‹œ
νŒŒλΌλ―Έν„° μ‘°μ • Temperature λ“± λͺ¨λΈ μ„€μ • λ³€κ²½ μ΅œμ’… 단계

5.2 적용 κ°€λŠ₯ν•œ ν”„λ‘¬ν”„νŠΈ μœ ν˜•

  • μš”μ•½ ν”„λ‘¬ν”„νŠΈ: μ •ν™•μ„±κ³Ό κ°„κ²°μ„± 쀑심
  • Q&A ν”„λ‘¬ν”„νŠΈ: 사싀 정확도와 λͺ…λ£Œμ„± 쀑심
  • 포맷 λ³€κ²½: κ΅¬μ‘°ν™”λœ 좜λ ₯ ν˜•μ‹ 쀑심
  • μ½”λ“œ 생성: κΈ°λŠ₯ κ΅¬ν˜„κ³Ό 문법 μ •ν™•μ„± 쀑심

6. 평가 κ²°κ³Ό ν™œμš©

6.1 μ‹œκ°ν™” 뢄석

graph TD
    A[평가 데이터] --> B[λ°˜λ³΅λ³„ 점수 좔이]
    A --> C[μ§€ν‘œλ³„ μ„ΈλΆ€ 뢄석]
    A --> D[ν”„λ‘¬ν”„νŠΈ μœ ν˜•λ³„ 비ꡐ]
    
    B --> E[κ°œμ„  효과 확인]
    C --> F[νŠΈλ ˆμ΄λ“œμ˜€ν”„ νŒŒμ•…]
    D --> G[μ΅œμ ν™” 민감도 비ꡐ]
Loading

6.2 뢄석 포인트

  • κ°œμ„  μΆ”μ„Έ: iteration별 점수 μƒμŠΉ μ—¬λΆ€
  • μ§€ν‘œλ³„ λ³€ν™”: μ–΄λ–€ 츑면이 κ°œμ„ /μ•…ν™”λ˜μ—ˆλŠ”μ§€
  • νŠΈλ ˆμ΄λ“œμ˜€ν”„: ν•œ μ§€ν‘œ κ°œμ„ μ΄ λ‹€λ₯Έ μ§€ν‘œμ— 미친 영ν–₯
  • 졜적점 식별: μΆ”κ°€ κ°œμ„ μ΄ μ–΄λ €μš΄ 지점 νŒŒμ•…

7. 핡심 성곡 μš”μΈ

μš”μ†Œ μ€‘μš”μ„± μ‹€ν–‰ 방법
체계적 평가 ν•„μˆ˜ λͺ…ν™•ν•œ μ§€ν‘œμ™€ 루브릭 μ„€μ •
객관적+주관적 병행 μ€‘μš” 두 λ°©λ²•μ˜ μƒν˜Έ 보완적 ν™œμš©
반볡적 κ°œμ„  핡심 Iterative Tuning 적용
데이터 기반 뢄석 μ€‘μš” μ‹œκ°ν™”λ₯Ό ν†΅ν•œ μΈμ‚¬μ΄νŠΈ λ„μΆœ

8. κ²°λ‘ 

LLM 응닡 ν’ˆμ§ˆ ν–₯상을 μœ„ν•΄μ„œλŠ”:

  1. 닀차원적 평가: μ •ν™•μ„±, 일관성, 톀, ν˜•μ‹μ„ μ’…ν•©μ μœΌλ‘œ κ³ λ €
  2. μžλ™ν™” ν™œμš©: LLM-as-a-Judge둜 νš¨μœ¨μ„± 확보
  3. 반볡적 μ΅œμ ν™”: Iterative Tuning을 ν†΅ν•œ 지속적 κ°œμ„ 
  4. 데이터 기반 μ˜μ‚¬κ²°μ •: μ‹œκ°ν™” 뢄석을 ν†΅ν•œ 객관적 νŒλ‹¨

μ΄λŸ¬ν•œ 체계적 접근을 톡해 LLM의 잠재λ ₯을 μ΅œλŒ€ν•œ ν™œμš©ν•˜κ³  μ‚¬μš©μž κ²½ν—˜μ„ μ§€μ†μ μœΌλ‘œ κ°œμ„ ν•  수 μžˆμŠ΅λ‹ˆλ‹€.

⚠️ **GitHub.com Fallback** ⚠️