Week10 Day4 - ai-esg/our-history GitHub Wiki

ํŒ€ NLP 11์กฐ Week10 Day4

๋ชฉ์ฐจ

์ผ์ž

  • 2021.10.08 ๊ธˆ

ํŒ€์›

  • ๋ฌธ์„์•”_T2075
  • ๋ฐ•๋งˆ๋ฃจ์ฐฌ_T2078
  • ๋ฐ•์•„๋ฉ˜_T2090
  • ์šฐ์›์ง„_T2137
  • ์œค์˜ํ›ˆ_T2142
  • ์žฅ๋™๊ฑด_T2185
  • ํ™ํ˜„์Šน_T2250

Today To do

  1. ํŒ€ ํšŒ๊ณ ๋ก ์ œ์ถœ
  2. ๋žฉ์—… ๋ฆฌํฌํŠธ ์ž‘์„ฑ
  3. ์ฝ”๋“œ ์ •๋ฆฌ

ํ”ผ์–ด์„ธ์…˜


ํŒ€ ํšŒ๊ณ 

  • ๋ฐ•๋งˆ๋ฃจ์ฐฌ
    • ๋‹ค ๊ฐ™์ด ํ•˜๊ณ  ์‹ถ์€ ๊ฒƒ์„ ํ–ˆ๋˜ ๊ฒƒ ๊ฐ™์Œ. ์„ฑ๋Šฅ์ด ์˜ฌ๋ผ๊ฐ€์ง€ ์•Š์•„ ์•„์‰ฌ์šด ํŒ€์›๋“ค๋„ ์žˆ์„ ๊ฒƒ์œผ๋กœ ๋ณด์ž„. ์‹คํ—˜ ๊ด€๋ฆฌ, ๊ตฌํ˜„ ๋ถ€๋ถ„์—์„œ ๋ถ€๋‹ด์„ ์ค„์ด๊ณ  ์•„์ด๋””์–ด์— ๋” ์ง‘์ค‘ํ•  ์ˆ˜ ์žˆ๊ฒŒ ๊ฐœ์„ ํ•˜๋ฉด ์ข‹์„ ๊ฒƒ ๊ฐ™๋‹ค. ๊ฒฐ๊ณผ๊ฐ€ ์ข‹์•„์„œ ๋‹ค๊ฐ™์ด ๋งŒ์กฑํ•˜๋Š” ๋ถ„์œ„๊ธฐ!
  • ๋ฌธ์„์•”
    • ํ˜‘์—…์ ์ธ ๋ถ€๋ถ„์—์„œ ์ถฉ๋ถ„ํ•œ ์„ฑ๊ณผ๊ฐ€ ์žˆ์—ˆ์ง€๋งŒ ์—ญ์œผ๋กœ ๊ทธ์™ธ ๋ถ€๋ถ„์— ๋Œ€ํ•œ ์ดํ•ด? ๋Š” ์กฐ๊ธˆ ๋ถ€์กฑํ•  ์ˆ˜ ์žˆ๊ฒ ๋‹ค ๋ผ๋Š” ์ƒ๊ฐ์ด ์žˆ์–ด ์ฝ”๋“œ ๋ฆฌ๋ทฐ๋ฅผ ์ข€ ๋” ์‹ ๊ฒฝ์จ์„œ ํ•ด์•ผ๊ฒ ๋‹ค๋ผ๋Š” ๊ฐœ์ธ์ ์ธ ์ƒ๊ฐ์ด ์ข€ ์žˆ์ง€๋งŒ ๋˜ ํ•™์Šต๊ณผ ์ ์ˆ˜์˜ ํŠธ๋ ˆ์ด๋“œ ์˜คํ”„ ๊ด€๊ณ„์†์—์„œ ์ž˜ ๋ชจ๋ฅด๊ฒ ๋‹ค.
  • ๋ฐ•์•„๋ฉ˜
    • 76์ . ํŒ€์ ์œผ๋กœ ๊นƒํ—ˆ๋ธŒ๋ฅผ ๋งˆ์Œ์— ๋“ค ์ •๋„๋กœ ์‚ฌ์šฉํ–ˆ๋‹ค. ์ฝ”๋“œ ์‚ฌ์šฉ์ด ๊ทธ๋Œ€๋กœ ์ œ์ถœ ๊ฐ€๋Šฅํ•  ์ •๋„๋กœ ๊น”๋”ํ–ˆ๋‹ค. ๋งˆ์ง€๋ง‰ ์ฃผ์‚ฌ์œ„๋ฅผ ๋ฏฟ์ง€ ๋ชปํ•œ ๊ฒƒ์ด ์•„์‰ฝ๊ธฐ๋Š” ํ•˜์ง€๋งŒ ๊ทธ๋ƒฅ ์•„์‰ฌ์šด ์ •๋„์ด๋‹ค. ์‹ค์งˆ์ ์ธ ์ง€์‹์— ๋Œ€ํ•œ ํ† ์˜๋Š” ๋ถ€์กฑํ–ˆ๋˜๊ฒƒ ๊ฐ™๋‹ค.
  • ์šฐ์›์ง„
    • ๊นƒํ—™์˜ ๋‹ค์–‘ํ•œ ๊ธฐ๋Šฅ์„ ์‚ฌ์šฉํ•ด๋ณด๊ณ  ํ”„๋กœ์ ํŠธ๋ฅผ ์ฒด๊ณ„์ ์œผ๋กœ ์ง„ํ–‰ํ•œ๊ฒƒ ๊ฐ™์•„์„œ ์ข‹์•˜๋‹ค. ๊ทธ๋ฆฌ๊ณ  ํŒ€์›๋“ค๊ณผ์˜ ์†Œํ†ต์ด ์ž˜ ๋œ๊ฒƒ ๊ฐ™์•„ ๋‹ค์–‘ํ•œ ์ด์•ผ๊ธฐ๋ฅผ ๋‚˜๋ˆ„๊ณ  ์•„์ด๋””์–ด ๊ณต์œ ๋„ ํ• ์ˆ˜ ์žˆ์–ด์„œ ๋‹ค์–‘ํ•œ ์‹คํ—˜์„ ํ• ์ˆ˜ ์žˆ์–ด ์ข‹์•˜๋‹ค.
  • ์œค์˜ํ›ˆ
    • ๊นƒํ—™์„ ์ ๊ทน ํ™œ์šฉํ•œ ์ , ๊ทผ๊ฑฐ๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ์‹คํ—˜์„ ์ง„ํ–‰ํ•œ ์ ์ด ์ข‹์•˜๋‹ค. ์ ์ˆ˜๋ฅผ ๋ชฉ์ ์œผ๋กœ ํ”„๋กœ์ ํŠธ๋ฅผ ์ง„ํ–‰ํ•˜์ง€ ์•Š์•„์„œ ์ ์ˆ˜ ๋‹ค๋ฅธ ๋ถ€๋ถ„์—์„œ๋„ ๋งŒ์กฑ์Šค๋Ÿฌ์› ๋‹ค.
  • ์žฅ๋™๊ฑด
    • github๋ฅผ ํ˜‘์—… ์šฉ๋„๋กœ์จ ์‚ฌ์šฉํ•œ ๊ฒƒ์€ ์ฒ˜์Œ์ด์—ˆ๋Š”๋ฐ ํšจ์œจ์ ์ธ ์˜์‚ฌ์†Œํ†ต์„ ํ•  ์ˆ˜ ์žˆ์–ด์„œ ์ข‹์•˜๋‹ค.
  • ํ™ํ˜„์Šน
    • ํŒ€์›๋ถ„๋“ค์˜ ํ˜‘์—… ๋Šฅ๋ ฅ์„ ๋ณผ ์ˆ˜ ์žˆ์–ด์„œ ์ข‹์•˜๊ณ , ๋‹ค ๊ฐ™์ด ์—ญํ• ์„ ๋‚˜๋ˆ ์„œ ๋ชจ๋ธ์„ ๋Œ๋ ค๋ณธ ๊ฒƒ์ด ์ข‹์•˜๋‹ค

์ž˜ํ–ˆ๋˜ ๊ฒƒ, ์ข‹์•˜๋˜ ๊ฒƒ, ๊ณ„์†ํ•  ๊ฒƒ

  • GITHUB ์— ๊ธฐ๋Šฅ์„ ๋งŽ์ด ํ™œ์šฉํ•œ ๊ฒƒ
    • ์‹คํ—˜์šฉ ์ฝ”๋“œ๊ฐ€ ๋ชจ๋“  ํŒ€์›์— ๋Œ€ํ•ด ์ผ์น˜๋˜์–ด ์žˆ์–ด์„œ, ๊ฐœ๋ฐœ๊ณผ ์‹คํ—˜์ด ์ž˜ ๋ถ„๋ฆฌ๋˜์—ˆ์Œ
  • KLUE paper๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ์‹คํ—˜ํ•˜์˜€๋˜ ๊ฒƒ

์ž˜๋ชปํ–ˆ๋˜ ๊ฒƒ, ์•„์‰ฌ์šด ๊ฒƒ, ๋ถ€์กฑํ•œ ๊ฒƒ -> ๊ฐœ์„ ๋ฐฉํ–ฅ

  • ํ† ๋ก ๊ฒŒ์‹œํŒ์— ์ƒ๊ฐ์„ ๊ณต์œ ํ•˜์ง€ ๋ชปํ•œ ์ 
    • ๊ธฐ๋ฐœํ•œ ์•„์ด๋””์–ด๋‚˜ ๋ฐœ๊ฒฌ ๋“ฑ์ด ์žˆ๋‹ค๋ฉด ํ† ๋ก ๊ฒŒ์‹œํŒ์„ ํ†ตํ•ด ๋” ๋งŽ์€ ์‚ฌ๋žŒ๊ณผ ์˜๊ฒฌ์„ ์ฃผ๊ณ ๋ฐ›์•„์•ผ๊ฒ ๋‹ค.
  • ์ฝ”๋“œ ๋ฆฌ๋ทฐ
    • ํ•™์Šต์ ์ธ ์ธก๋ฉด์—์„œ ๋‹ค๊ฐ™์ด ์ฝ”๋“œ ๋ฆฌ๋ทฐ๋ฅผ ์ข€ ๋” ์—ด์‹ฌํžˆ ํ•˜๋ฉด ์ข‹์„ ๊ฒƒ์ด๋‹ค.
  • task ์„ฑ๋Šฅ ํ–ฅ์ƒ์— ๊ธฐ์—ฌํ•  ์ˆ˜ ์žˆ๋Š” ๊ธฐ์ˆ ์„ ์ง์ ‘ ์ฐพ์ง€ ๋ชปํ•œ ์ 
    • AEDA, TAPT์™€ ๊ฐ™์€ ๊ธฐ๋ฒ•๋“ค์„ ์Šค์Šค๋กœ ์ฐพ์„ ์ˆ˜ ์žˆ๋„๋ก ํ•˜๋ฉด ์ข‹์„ ๊ฒƒ ๊ฐ™๋‹ค.

๋„์ „ํ•  ๊ฒƒ, ์‹œ๋„ํ•  ๊ฒƒ

  • ๋‹ค์–‘ํ•œ ๋ชจ๋“ˆ์˜ ์‚ฌ์šฉ
  • ์ปค์Šคํ…€ ์‹œ๋„
  • ์ด๋ก ์ ์ธ ์ ‘๊ทผ
  • ์ดˆ๊ธฐ์— Model, Hyper parameter ๊ณ ์ •
    • klue/bert-base (62.32, 68.51)/(EM, ROUGE) ์ด ์„ธํŒ…์œผ๋กœ ๊ณ ์ •ํ•˜๊ณ  ์‹œ์ž‘ํ•˜๋ฉด ์–ด๋–จ๊นŒ?
    • ํŠœ๋‹์€ ๋‚˜์ค‘์—. hyper parameter ์ตœ์ ํ™” ํˆด ์‚ฌ์šฉํ•˜๊ธฐ.
  • ๋งค์ผ๋งค์ผ 10๋ฒˆ ์ œ์ถœ ํ•˜๊ธฐ

๊ฐœ๋ณ„ ํ‚ค์›Œ๋“œ(๊ณต๋ถ€ํ•œ ๊ฒƒ, ์•Œ๊ฒŒ๋œ ๊ฒƒ, ๋А๋‚€ ์ )

  • ๋ฐ•๋งˆ๋ฃจ์ฐฌ
    • ํ”„๋กœ์ ํŠธ ์ดˆ๊ธฐ์— ๋ชจ๋ธ ์ดํ•ด๋ฅผ ๋” ๊นŠ์ด ํ–ˆ๋‹ค๋ฉด ์ฃผ๋„์ ์ธ ์‹คํ—˜์ด ๊ฐ€๋Šฅํ–ˆ์„ ๊ฒƒ ๊ฐ™๋‹ค.
  • ๋ฌธ์„์•”
    • ๊ฒฝํ—˜์ด ์ •๋ง ํฐ ๋ฌด๊ธฐ๋ผ๋Š”๊ฑฐ ํŠนํžˆ AI ๋ถ„์•ผ ์ชฝ์—์„œ... ๊ทธ๋Ÿฌ๋‹ˆ๊นŒ ๊ณต๋ถ€ํ•˜์ž ๊ณต๋ถ€๊ณต๋ถ€
  • ๋ฐ•์•„๋ฉ˜
    • ์ด์ƒ์ ์œผ๋กœ ์˜ณ๋‹ค๊ณ  ํ•ด์„œ ๊ธฐ๊ณ„ํ•™์Šต์ด ์ด์ƒ์ ์œผ๋กœ ๋˜๋Š” ๊ฑด ์•„๋‹ˆ๋‹ค. ๊ฐœ์ธ ๊ด€๋ฆฌ์™€ ๊ฐœ์ธ ํ•™์Šต์— ๋” ์‹ ๊ฒฝ์จ์•ผ๊ฒ ๋‹ค.
  • ์šฐ์›์ง„
    • ๋ชจ๋ธ์„ ๋จผ์ € ๊นŠ์ด์žˆ๊ฒŒ ๊ณต๋ถ€ํ•˜์ง€ ์•Š๊ณ  ๋Œ€ํšŒ๋ฅผ ์ง„ํ–‰ํ•ด์„œ ์กฐ๊ธˆ ์•„์‰ฌ์› ๋‹ค. ํ•˜์ง€๋งŒ ํ† ํฌ๋‚˜์ด์ €์™€ NLP Task๊ฐ€ ์–ด๋–ค์‹์œผ๋กœ ์ง„ํ–‰๋˜๋Š”์ง€์— ๋Œ€ํ•œ ๊ฐ์€ ์žก์€๊ฒƒ ๊ฐ™๋‹ค.
  • ์œค์˜ํ›ˆ
    • ํ† ํฌ๋‚˜์ด์ €์™€ ๋ชจ๋ธ์˜ ๊ธฐ๋ณธ์ ์ธ ์ž‘๋™ ๋ฐฉ์‹์— ๋Œ€ํ•œ ๊ณต๋ถ€๋ฅผ ํ•˜์ง€ ๋ชปํ•œ ๊ฒƒ์ด ์•„์‰ฌ์› ์–ด์„œ, ์–ด๋–ค ์‹์œผ๋กœ ํ•™์Šต์ด ๋˜๊ณ  ๊ฒฐ๊ณผ๊ฐ€ ์ „๋‹ฌ๋˜๊ณ  special token์ด ์‚ฌ์šฉ๋˜๋Š” ๊ฒƒ์ธ์ง€ ๊ณต๋ถ€ํ•ด์•ผ ํ•  ๊ฒƒ ๊ฐ™๋‹ค.
  • ์žฅ๋™๊ฑด
    • huggingface๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ๋ฐ ์ต์ˆ™ํ•ด์ ธ์•ผ ํ•  ํ•„์š”์„ฑ์„ ๋А๊ผˆ๋‹ค. ๊ธฐ๋ณธ์ ์ธ ๊ฒƒ์„ ๋ชฐ๋ผ์„œ ์‹œ๊ฐ„์„ ์†Œ๋ชจํ•˜๋Š” ์ƒํ™ฉ์„ ์ค„์ด๊ธฐ ์œ„ํ•ด ๊ธฐ๋ณธ์ ์ธ ๋‚ด์šฉ ๊ณต๋ถ€๋ฅผ ์†Œํ™€ํžˆ ํ•˜์ง€ ๋ง์•„์•ผ ๊ฒ ๋‹ค.
  • ํ™ํ˜„์Šน
    • ๋Œ€ํšŒ ๊ธฐ๊ฐ„๋™์•ˆ ๊นƒํ—™, cliํ™˜๊ฒฝ์— ์ต์ˆ™ํ•ด์ง€์ง€ ๋ชปํ–ˆ๋˜ ๊ฒƒ์ด ์ •๋ง ์•„์‰ฌ์—ˆ๋˜ ๊ฒƒ ๊ฐ™๋‹ค. ๋˜ํ•œ ์ €๋ฒˆ ์Šคํ…Œ์ด์ง€์™€ ๋‹ค๋ฅด๊ฒŒ ์ „์ฒด์ ์ธ ์ฝ”๋“œ ์ดํ•ด๊ฐ€ ๋ถ€์กฑํ•ด์„œ ์ž˜ ๋”ฐ๋ผ๊ฐ€์ง€ ๋ชปํ–ˆ๋˜ ๊ฒƒ ๊ฐ™๋‹ค. ์—ฌ๋Ÿฌ๋ชจ๋กœ ์•„์‰ฌ์›€์ด ๋งŽ์€ ๋Œ€ํšŒ์˜€๋˜ ๊ฒƒ ๊ฐ™๋‹ค

๋žฉ์—… ๋ฆฌํฌํŠธ

๋ชฉ์ฐจ

  • [1. ํ”„๋กœ์ ํŠธ ๊ฐœ์š”]
  • [2. ํ”„๋กœ์ ํŠธ ํŒ€ ๊ตฌ์„ฑ ๋ฐ ์—ญํ• ]
  • [3. ์ˆ˜ํ–‰ํ•œ ๋ฏธ๋‹ˆํ”„๋กœ์ ํŠธ]
  • [4. ์ตœ์ข… ํ”„๋กœ์ ํŠธ ๊ฒฐ๊ณผ]
  • [5. ์ž์ฒด ํ‰๊ฐ€ ์˜๊ฒฌ]

1. ํ”„๋กœ์ ํŠธ ๊ฐœ์š”

  • Relation Extraction task
    • ๋ฌธ์žฅ ์† ๋‘ ๋‹จ์–ด์˜ ๊ด€๊ณ„๋ฅผ ์ถ”๋ก ํ•˜๋Š” ๋ชจ๋ธ ํ•™์Šต.
    • ๋ชจ๋ธ์€ ๋‘ ๋‹จ์–ด์™€ ๋ฌธ์žฅ์„ ์ž…๋ ฅ์œผ๋กœ ๋ฐ›๊ณ , ์ง€์ •๋œ ๋‘ ๋‹จ์–ด์˜ ๊ด€๊ณ„๋ฅผ 30๊ฐ€์ง€ class ์ค‘ ํ•˜๋‚˜๋กœ ์˜ˆ์ธกํ•œ๋‹ค.
  • ํ•ด๋‹น task์—์„œ ์ถ”๊ฐ€์ ์ธ ์ „์ฒ˜๋ฆฌ์™€ ํ…Œ์ŠคํŠธ์…‹ ์–ธ์–ด๋ชจ๋ธ ์‚ฌ์ „ํ•™์Šต, ์•™์ƒ๋ธ”์„ ํ†ตํ•ด KLUE ๋ฒค์น˜๋งˆํฌ* ๋Œ€๋น„ ์•ฝ 4%์˜ micro f1-score ํ–ฅ์ƒ์„ ํ™•์ธํ•˜์˜€๋‹ค.
    • *(Park, Sungjoon, et al. "KLUE: Korean Language Understanding Evaluation." arXiv preprint arXiv:2105.09680 (2021))

2. ํ”„๋กœ์ ํŠธ ํŒ€ ๊ตฌ์„ฑ ๋ฐ ์—ญํ• 

  • ๋ฐ•๋งˆ๋ฃจ์ฐฌ (ํŒ€์žฅ) : environment, AEDA
  • ๋ฌธ์„์•” (ํŒ€์›) : ๋ฐ์ดํ„ฐ ๋ถ„์„, model modularize, TATP
  • ๋ฐ•์•„๋ฉ˜ (ํŒ€์›) : dataset, EDA
  • ์šฐ์›์ง„ (ํŒ€์›) : model modularize, Random Oversampling, Train Dataset ๊ตฌ์กฐ ๋งŒ๋“ค๊ธฐ
  • ์œค์˜ํ›ˆ (ํŒ€์›) : dataset, Typed Entity Marker(punct), Entity Swap Augmentation
  • ์žฅ๋™๊ฑด (ํŒ€์›) : environment, TATP
  • ํ™ํ˜„์Šน (ํŒ€์›) : dataset, ์ž…๋ ฅ๋ฐ์ดํ„ฐ ๊ตฌ์กฐ ๋งŒ๋“ค๊ธฐ

3. ์ˆ˜ํ–‰ํ•œ ๋ฏธ๋‹ˆํ”„๋กœ์ ํŠธ

  • Gantt Chart

  • ๋ถ„์„

    • ํƒ์ƒ‰์  ๋ถ„์„
      • subject_entity type์€ per, org ๋กœ 2๊ฐ€์ง€๋กœ ๋ถ„๋ฅ˜๋œ๋‹ค.
      • relation ๋Š” subject_entity์˜ entity์—์˜ํ•ด ๋‹จ์ฒด ๋˜๋Š” ์‚ฌ๋žŒ์œผ๋กœ ์‹œ์ž‘ํ•œ๋‹ค
        • ๋‹จ, ๋ฐ์ดํ„ฐ์—์„œ ์˜ˆ์™ธ๊ฐ€ ์กด์žฌ
          1. ์ž˜๋ชป ํ‘œ๊ธฐ๋œ ๊ฒฝ์šฐ
            • ์†Œ๋…€์‹œ๋Œ€ ๋“ฑ์˜ org Label ์ด per ์ธ ๊ฒฝ์šฐ
            • ๋„์‹œ๋ช… ๋“ฑ์˜ ์ง€๋ช…์ด subject_entity ๋กœ ๋‚˜์™€ subject_entity ๊ฐ€ ์ž˜๋ชป ๋‚˜์˜จ ๊ฒฝ์šฐ
        • ๋‹ค๋ฅธ ์˜ˆ์™ธ ์‚ฌํ•ญ์€ ํ™•์ธํ•˜์ง€ ๋ชปํ•จ.
    • ์ ‘๊ทผ ๋ฐฉ๋ฒ•, ๋ฐœ์ƒ
      • ๋…ผ๋ฌธ์—์„œ ์ข‹์€ ๊ฒฐ๊ณผ๋ฅผ ๋‚ธ ๋ชจ๋ธ์„ ์„ ์ •.
      • ๊ธฐ์กด์˜ Pretraining๊ณผ ์ตœ๋Œ€ํ•œ ๋น„์Šทํ•œ ์ž…๋ ฅ์„ ์ฃผ๊ธฐ ์œ„ํ•œ ์ž…๋ ฅ ํ˜•ํƒœ ๋ณ€ํ˜•
      • ๋ฐ์ดํ„ฐ ๋ถˆ๊ท ํ˜• ํ•ด๊ฒฐ ๋ฐ ์ฆ๊ฐ•์„ ์œ„ํ•œ augmentation
  • ๋ชจ๋ธ ์„ ์ •

    • ์ œ๊ณต๋œ ๋ชจ๋ธ ์ค‘ ์ ‘๊ทผ์ด ์‰ฝ๊ณ , ๊ด€๋ จ ๋…ผ๋ฌธ์—์„œ ์„ฑ๋Šฅ์ด ์ข‹์•˜๋˜ ๋ชจ๋ธ์„ ์„ ์ •ํ•˜์˜€๋‹ค.
    • KLUE ๋ฒค์น˜๋งˆํฌ์—์„œ ์ œ์‹œํ•œ ํŒŒ๋ผ๋ฏธํ„ฐ๋“ค์„ ํ†ตํ•ด ๊ฒฐ๊ณผ๋ฅผ ๊ตฌํ˜„ํ•˜์˜€๋‹ค.
  • ์ ์šฉ ์‚ฌํ•ญ

    1. Typed Entity Marker (punct)

      • An Improved Baseline for Sentence-level Relation Extraction ๋…ผ๋ฌธ์„ ๊ธฐ๋ฐ˜์œผ๋กœ ์ง„ํ–‰
      • data๋กœ ์ฃผ์–ด์ง€๋Š” sentence์— entity์˜ type๊ณผ ํ•จ๊ป˜ entity marker๋ฅผ ์ถ”๊ฐ€ํ•˜๋˜ marker๋กœ special token๋Œ€์‹  ๋ฌธ์žฅ๋ถ€ํ˜ธ๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ๋ฐฉ๋ฒ•์ด๋‹ค.
      • ์„ฑ๋Šฅ์ด ํ–ฅ์ƒ๋˜์—ˆ๋‹ค. entity type๊ณผ ํ•จ๊ป˜ entity๋ฅผ markํ•˜์—ฌ ๋ชจ๋ธ์—๊ฒŒ ๋” ๋งŽ์€ ์ •๋ณด๋ฅผ ์ œ๊ณตํ•ด์คŒ์œผ๋กœ์จ ์„ฑ๋Šฅ์ด ํ–ฅ์ƒ๋œ ๊ฒƒ์œผ๋กœ ์—ฌ๊ฒจ์ง„๋‹ค.
    2. Adaptation

      • ๋ฐฉ๋ฒ• ์„ค๋ช… : pretrain ๋œ ๋ชจ๋ธ(ex bert๋“ฑ)์„ Masked language modeling์„ ํ†ตํ•ด ์‚ฌ์ „ํ•™์Šต ์‹œํ‚จ ํ›„ Finetuning ํ•˜๋Š” ๋ฐฉ๋ฒ•์ด๋‹ค.

      • ์ ์šฉ ์‚ฌ์œ  : Domain ๋˜๋Š” Task์— ๋Œ€ํ•œ ์–ธ์–ด ๋ชจ๋ธ์„ ํ•œ๋ฒˆ ๋” ํ•™์Šต ์‹œํ‚ค๋Š” ๊ฒƒ์ด ๋‹น์—ฐํžˆ ๋” ๊ฐ ๋‹จ์–ด๊ฐ„ ๊ด€๋ จ๋„๊ฐ€ ๋†’์„ ๊ฒƒ์ด๋ผ ์ƒ๊ฐํ–ˆ๋‹ค. (์ฐธ๊ณ  Donโ€™t Stop Pretraining: Adapt Language Models to Domains and Tasks)

      • ์ ์šฉ ๋ฐฉ์•ˆ

        • ์šฐ์„  ํ•ด๋‹น Task์—์„œ๋Š” Domain์„ ํ•œ์ •ํ•  ์ˆ˜ ์—†์–ด์„œ DATP๋Š” ์‚ฌ์šฉ์ด ํž˜๋“ค ๊ฒƒ์ด๋ผ ํŒ๋‹จํ•˜์˜€๋‹ค.
        • Dataset์„ ํ†ตํ•œ TATP(Task-Adaptive PreTraining )์„ ์ง„ํ–‰
      • ์ ์šฉ ๊ฒฐ๊ณผ

        1. Train set ์„ ํ†ตํ•œ ์ง„ํ–‰
          • Submission F1 score๊ฐ€ ์˜คํžˆ๋ ค ๋–จ์–ด์ง
        2. Train + Test set์„ ํ†ตํ•œ ์ง„ํ–‰
          • Submission F1 score๊ฐ€ ์ฆ๊ฐ€
    3. EDA

      • ๊ธฐ์กด์˜ EDA์—์„œ๋Š” ๋™์˜์–ด๋ฅผ ๋„ฃ๋Š” ๋ฐฉ์‹์œผ๋กœ ํ•™์Šต ๋ฐ์ดํ„ฐ๋ฅผ ํ™•๋ณดํ•˜์˜€๋‹ค. ์ด์™€ ์œ ์‚ฌํ•˜๊ฒŒ ๋™์˜์–ด๋Š” ์•„๋‹ˆ๋”๋ผ๋„ per, dat, org, loc์˜ type์— ๋Œ€ํ•ด subject entity์™€ object entity์˜ ๋‹จ์–ด๋ฅผ ๋Œ€์ฒดํ–ˆ๋‹ค.
      • ์„ฑ๋Šฅ์€ ์˜คํžˆ๋ ค ํ•˜๋ฝํ–ˆ๋‹ค. ์•„๋ฌด๋ž˜๋„ ๋ฌธ์žฅ ๊ตฌ์กฐ๊ฐ€ ์ฃผ์š” ๋‹จ์–ด๋ฅผ ์ œ์™ธํ•˜๊ณ ๋Š” ๋™์ผํ•ด์„œ ์ƒ๊ธฐ๋Š” ๊ณผ์ ํ•ฉ ๋ฌธ์ œ๋กœ ๋ณด์ธ๋‹ค. ํŠนํžˆ ์›๋ž˜ ๋ผ๋ฒจ์ด ์ ์—ˆ๋‹ค๋ฉด ์ƒ์„ฑ๋œ ๋™์ผ ๊ตฌ์กฐ์˜ ๋ฌธ์žฅ์ด ๋งŽ๊ธฐ ๋•Œ๋ฌธ์— ํ•ด๋‹น ๋ผ๋ฒจ์„ ๋” ์—„๊ฒฉํ•˜๊ฒŒ ๋”ฐ์ง€๋Š” ๊ฒฝํ–ฅ์„ฑ์„ ๋ณด์ด๊ฒŒ ๋˜์–ด ์˜คํžˆ๋ ค ์ ์ˆ˜๊ฐ€ ํ•˜๋ฝํ•œ ๊ฒƒ์œผ๋กœ ๋ณด์ธ๋‹ค.
    4. AEDA

      • ์ž„์˜์˜ ๋ฌธ์žฅ๋ถ€ํ˜ธ๋ฅผ ์ž…๋ ฅ ๋ฌธ์žฅ์˜ ๋‹จ์–ด ์‚ฌ์ด์— ๋ฌด์ž‘์œ„๋กœ ์‚ฝ์ž…ํ•˜์˜€๋‹ค.
      • ๋ฌธ์žฅ๋ถ€ํ˜ธ : (, . ; : ? !)
      • ์ด ์‚ฝ์ž… ๊ฐœ์ˆ˜ : ์›๋ณธ ๋ฌธ์žฅ์˜ ๋‹จ์–ด ์ˆ˜ ๋Œ€๋น„ 0%(๋ฏธ์ ์šฉ๊ณผ ๋™์ผ) ,30%, 100%๋กœ ์‹คํ—˜ํ–ˆ๋‹ค.
      • ๊ฒฐ๊ณผ : ์œ ์˜๋ฏธํ•œ ์ฐจ์ด๊ฐ€ ๋ฐœ์ƒํ•˜์ง€ ์•Š์•˜๋‹ค.
      • ๋…ผ๋ฌธ ๊ฒฐ๊ณผ์™€ ์‹คํ—˜ ๊ฒฐ๊ณผ๋ฅผ ๋ณผ ๋•Œ, ๋” ์ ์€ ๋ฐ์ดํ„ฐ์…‹์— ๋Œ€ํ•ด ํšจ๊ณผ ์žˆ๋Š” ๋ฐฉ๋ฒ•์œผ๋กœ ๋ณด์ž„.
    5. Entity Swap Augmentation

      • object entity๋ฅผ subject entity๋กœ subject entity๋ฅผ object entity๋กœ ๋ฐ”๊พธ์–ด๋„ 30๊ฐœ์˜ label ์ค‘ ํ•ด๋‹นํ•˜๋Š” label์ด ์žˆ๋Š” data๋“ค์— ๋Œ€ํ•ด์„œ๋งŒ entity swap์„ ์ง„ํ–‰ํ•˜์—ฌ ๋ฐ์ดํ„ฐ๋ฅผ ๋Š˜๋ฆฌ๋Š” ๋ฐฉ๋ฒ•์ด๋‹ค.
      • ๋ฐ์ดํ„ฐ๊ฐ€ ์ƒ๋Œ€์ ์œผ๋กœ ๋งŽ์€ label์— ๋Œ€ํ•ด์„œ ์ง„ํ–‰ํ•  ๊ฒฝ์šฐ ๋ฐ์ดํ„ฐ ๋ถˆ๊ท ํ˜•์ด ๋” ์‹ฌํ•ด์งˆ ๊ฒƒ์ด๋ฏ€๋กœ ๋ฐ์ดํ„ฐ๊ฐ€ ์ƒ๋Œ€์ ์œผ๋กœ ๋ถ€์กฑํ•œ label๋“ค์— ๋Œ€ํ•ด์„œ๋งŒ ์ง„ํ–‰ํ–ˆ๋‹ค.
    6. Random OverSampling

      • ์ˆ˜๊ฐ€ ์ ์€ label์— ๋Œ€ํ•ด์„œ ๋ฐ์ดํ„ฐ๋ฅผ ์ค‘๋ณต์œผ๋กœ ๋„ฃ์–ด ๋ฐ์ดํ„ฐ ๋ถˆ๊ท ํ˜•์„ ๊ทน๋ณตํ•˜๋ ค ํ–ˆ๋‹ค.
      • ์„ฑ๋Šฅ์€ ์˜คํžˆ๋ ค ํ•˜๋ฝํ–ˆ๋‹ค. ๋ฐ์ดํ„ฐ๊ฐ€ ์ ์€ ๋ผ๋ฒจ์ด ์ค‘๋ณต์ด ๋งŽ์ด ๋˜๋ฉฐ ํ•ด๋‹น ๋ฐ์ดํ„ฐ์—๋งŒ overfitting ๋๋˜ ๊ฒƒ์ด ์•„๋‹Œ๊ฐ€๋ผ๋Š” ์ƒ๊ฐ์„ ํ–ˆ๋‹ค.
    7. train ๋ฐ์ดํ„ฐ ๊ตฌ์กฐ ๋งŒ๋“ค๊ธฐ

      • BERT๋Š” Pretrainingํ• ๋•Œ 2๊ฐœ์˜ ๋ฌธ์žฅ์— ๋Œ€ํ•œ ๊ด€๊ณ„๋ฅผ [CLS] ํ† ํฐ์„ ํ†ตํ•ด ์ถ”๋ก ํ•˜๋Š” ๋ฐฉ์‹์ด๋ฏ€๋กœ, ์ด๋ฒˆ Relation Extraction task์—์„œ๋Š” [CLS] original Sentence [SEP] ์ด ๋ฌธ์žฅ์—์„œ {Subject Entity}์™€ {Object Entity}์™€์˜ ๊ด€๊ณ„๋Š” ๋ฌด์—‡์ผ๊นŒ? [SEP] ์™€ ๊ฐ™์€ ๊ตฌ์กฐ๋กœ Data๋ฅผ ๊ตฌ์„ฑํ•˜์—ฌ ์‹คํ—˜์„ ์ง„ํ–‰ํ•˜์˜€๋‹ค.
      • BERT๋Š” Pretrainingํ• ๋•Œ 2๊ฐœ์˜ ๋ฌธ์žฅ์— ๋Œ€ํ•œ ๊ด€๊ณ„๋ฅผ [CLS] ํ† ํฐ์„ ํ†ตํ•ด ์ถ”๋ก ํ•˜๋Š” ๋ฐฉ์‹์ด๋ฏ€๋กœ, ์ด๋ฒˆ Relation Extraction task์—์„œ๋Š” [CLS] {Subject Entity} [SEP] {Object Entity} [SEP] ๊ด€๊ณ„ [SEP] ์ •๋ณด Sentence [SEP] ์™€ ๊ฐ™์€ ๊ตฌ์กฐ๋กœ Data๋ฅผ ๊ตฌ์„ฑํ•ด์„œ ๊ด€๊ณ„์™€ clsํ† ํฐ์ด attention์„ ํ•™์Šตํ•˜๋„๋ก ์‹คํ—˜์„ ์ง„ํ–‰ํ•˜์˜€๋‹ค.
    8. hyperparameter ์‹คํ—˜์  ๊ฒฐ๊ณผ ์„ ์ •

4. ์ตœ์ข… ํ”„๋กœ์ ํŠธ ๊ฒฐ๊ณผ

  • ์„ฑ๋Šฅ ํ–ฅ์ƒ์— ๋„์›€์ด ๋˜์—ˆ๋˜ ์ ์šฉ
    • Typed Entity Marker (punct), TAPT, Entity Swap Augmentation, train ๋ฐ์ดํ„ฐ ๊ตฌ์กฐ ๋งŒ๋“ค๊ธฐ
    • soft voting ensemble (best model์— ๋Œ€ํ•ด 1.2๋ฐฐ ๊ฐ€์ค‘์น˜ ๋ฐ˜์˜)
  • ์ตœ์ข… ๋ชจ๋ธ (์ดํ•˜ ๋ชจ๋ธ ensemble)
    • 72.710 (TAPT+ added data + entity marker, tokenization modify)
    • 73.950 (TAPT+ entity marker, tokenization modify)
    • 74.034 (added data + entity marker + tokenization modify + k-fold)
    • 72.991 (entity marker + tokenization modify)
    • 70.724 (TAPT (epoch 30)+ added data + entity marker, tokenization modify)
  • ์ตœ์ข… ์ ์ˆ˜
    • Public micro_f1 score : 75.962
    • Private micro_f1 score : 73.794

5. ์ž์ฒด ํ‰๊ฐ€ ์˜๊ฒฌ

  • ์ž˜ํ•œ ์ 

    • ๊นƒํ—ˆ๋ธŒ ์‚ฌ์šฉ์ด ๋งŒ์กฑ์Šค๋Ÿฌ์› ๋‹ค. -> ํ”„๋กœ์ ํŠธ ๊ด€๋ฆฌ๊ฐ€ ๋˜๋Š” ๋А๋‚Œ์ด์—ˆ๋‹ค.
    • task๊ด€๋ จ paper๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ์‹คํ—˜์„ ๋ถ„ํ•  ์ง„ํ–‰ํ•œ ๊ฒƒ.
  • ์•„์‰ฌ์› ๋˜ ์ ๋“ค

    • ์‹คํ—˜ ๊ด€๋ฆฌ ์ข€ ๋ถˆํŽธํ–ˆ์Œ (์ด๋ฆ„ ์ง“๊ธฐ, wandb์—์„œ ๋‚ด ๋ชจ๋ธ ์ฐพ๊ธฐ)
      • arg ๊ฐ€ ๋„ˆ๋ฌด ๋งŽ์•„์„œ ์˜คํžˆ๋ ค ํž˜๋“ค์—ˆ์Œ..
      • ๋‹ค์Œ์—๋Š” <๊น€์บ ํผ> 1, 2, 3, 4, 5 <์ด๋ถ€์บ > 1,2,3,4 ๋“ฑ์œผ๋กœ ์ž‘์„ฑํ•ด๋ณด์ž.
    • ๋ชจ๋ธ์„ ๋ถ„ํ•  ํ•˜์—ฌ Task๋ฅผ ๋‚˜๋ˆ„๋Š” ๋ฐฉ๋ฒ•์„ ๊ณ ๋ คํ•˜์˜€์œผ๋‚˜ ์‹ค์ œ ์ ์šฉํ•˜์ง€ ๋ชปํ•œ ์ ์ด ์•„์‰ฝ๋‹ค.
      • ์ƒ๊ฐํ•œ Task ๋ถ„ํ• ์€ ๋ฐ์ดํ„ฐ์˜ subject_entity๊ฐ€ 2๊ฐ€์ง€์ด๋ฉฐ no_relation,'org','per' label์˜ ๋น„์œจ์ด ๋งค์šฐ ๋น„์Šทํ•˜์—ฌ 3๊ฐ€์ง€๋กœ ๋ถ„๋ฅ˜ ํ›„ 'org','per'์€ ๊ฐ์ž Task๋ฅผ ํ•œ๋ฒˆ ๋” ์ง„ํ–‰ํ•˜๋Š” ๊ฒƒ์„ ์ƒ๊ฐํ•ด ๋ด„
    • ๋ชจ๋ธ ์„ฑ๋Šฅ ํ–ฅ์ƒ์— ๊ธฐ์—ฌํ•  ์ˆ˜ ์žˆ๋Š” ๋ฐฉ๋ฒ•(๋…ผ๋ฌธ)์„ ์ง์ ‘ ์ฐพ์ง€ ๋ชปํ•œ ์ .
    • tokenizing๋ถ€ํ„ฐ ์ปค์Šคํ…€ ๋ชจ๋ธ ์ž‘์„ฑํ•˜๊ธฐ.
    • BERT๋ชจ๋ธ ์œ„์— ์ธต์„ ๋” ์Œ“์•„์„œ ์‹คํ—˜ํ•ด๋ณด์ง€ ๋ชปํ•œ๊ฒƒ.
    • wandb๋ฅผ ์ข€ ๋” ์ฒด๊ณ„์ , ์‹ค์šฉ์ ์œผ๋กœ ์‚ฌ์šฉํ•˜์ง€ ๋ชปํ•œ ์ .
    • hyperparameter ์ตœ์ ํ™” ํˆด์„ ์‚ฌ์šฉํ•ด๋ณด์ง€ ๋ชปํ•œ ์ .
โš ๏ธ **GitHub.com Fallback** โš ๏ธ