Week10 Day1 - ai-esg/our-history GitHub Wiki

νŒ€ NLP 11μ‘° Week10 Day1

λͺ©μ°¨

일자

  • 2021.10.05 ν™”

νŒ€μ›

  • 문석암_T2075
  • λ°•λ§ˆλ£¨μ°¬_T2078
  • λ°•μ•„λ©˜_T2090
  • μš°μ›μ§„_T2137
  • μœ€μ˜ν›ˆ_T2142
  • μž₯동건_T2185
  • ν™ν˜„μŠΉ_T2250

ν”Όμ–΄μ„Έμ…˜

ν† λ‘ 

  • f1-score optimizationν•  경우 eval acc, micro f1, auprc λΉ„μ •μƒμ μœΌλ‘œ λ™μž‘

ONGOING

  1. Adaptation 문석암, μž₯동건
    • TAPT
    • Domain (의료)
    • Task (저희 데이터 λͺ¨λ‘)
    • μš°μ„  Adaptation train 진행쀑
  2. AEDA λ°•λ§ˆλ£¨μ°¬
    • μ λ‹Ήν•œ 기호λ₯Ό λ¬΄μž‘μœ„λ‘œ λ„£κ³  ν›ˆλ ¨μ„ ν•΄ λ³΄λŠ” 쀑이닀.
    • λ¬΄μž‘μœ„ 기호 생성을 띄어쓰기 μ „ν›„λ‘œ. ν† ν¬λ‚˜μ΄μ§•μ— 크게 영ν–₯μ£Όμ§€ μ•ŠλŠ” κ²ƒμœΌλ‘œ 보인닀.
  3. EDA λ°•μ•„λ©˜
    • μ œμž‘ν•΄μ„œ κ΅¬ν˜„ν•΄λ³Έ κ²°κ³Ό μ„±λŠ₯이 였히렀 ν•˜λ½ν–ˆλ‹€.
    • bert-base와 roberta-large λ‘˜ λ‹€ ν•˜λ½ν–ˆλ‹€. 1μ—ν­μ§œλ¦¬ ν•™μŠ΅μ—μ„œλ„ λ§ˆμ°¬κ°€μ§€μ˜€λ‹€.
  4. Entity embedding μœ€μ˜ν›ˆ, μš°μ›μ§„, ν™ν˜„μŠΉ
    • Typed entity marker( punct ) μ μš©ν•΄μ„œ ν•™μŠ΅μ€‘μ΄λ‹€.

μ•Œμ•„λ‚Έ 것

  • roberta-large paper 벀치마크 μ„±λŠ₯ λ‚΄λŠ” configuration (μ˜ν›ˆλ‹˜)

  • f1 loss λ³΄λ‹€λŠ” focal lossλ₯Ό μ‚¬μš©ν•˜λŠ” 것이 더 μ„±λŠ₯이 높은 것 configuration (μ˜ν›ˆλ‹˜)

  • bert-base μ„±λŠ₯ ν–₯μƒλ˜λŠ” configuration (μ›μ§„λ‹˜)

  • evaluation 기쀀을 test κΈ°μ€€κ³Ό μΌμΉ˜ν•  λ•Œ λ¦¬λ”λ³΄λ“œμ™€ λΉ„μŠ·ν•œ κ²°κ³Όκ°€ λ‚˜μ˜΄ (micro f1)

무엇을 더 ν•  수 μžˆλ‚˜?

  • 내일 12:00에 κ²°κ³Ό λ…Όμ˜

    • μƒλŒ€νŽΈμ„ μ΄ν•΄μ‹œν‚¬ 수 있게 κ°„λ‹¨ν•œ 자료 μ€€λΉ„ ν•΄μš”.
  • 이후 ensemble λ…Όμ˜

  • ensemble

    • bert-base, roberta-large
    • Adaptation 적용, 미적용
    • AEDA, EDA 적용, 미적용
    • Typed entity marker 적용, 미적용
    • entity λ¬Έμž₯ ꡬ성 적용, 미적용