2021 10 06 - KR-HappyFace/meetup-logs GitHub Wiki

Ice breaking

  • ๊ธˆ์š”์ผ๋‚  ์–ด๋–ค ๋…ผ๋ฌธ ์ฝ์–ด์•ผ ํ• ๊นŒ์š”???
    • BERT ๊ฐ€ ๊ฐ€์žฅ ์ข‹์•„๋ณด์ž„.
    • ์˜์ง„๋‹˜์ด 70์ ์„ ๋„˜๊ฒจ์ฃผ์…จ๋‹ค!
  • ์„ธํ˜„๋‹˜ ๋…ผ๋ฌธ๋ฆฌ๋ทฐ??

์˜์ง„

  • k-fold๋กœ ํ•˜๋ฉด xlm roberta๊ฐ€ klue roberta๋ณด๋‹ค ์กฐ๊ธˆ ์ฐจ์ด๊ฐ€ ์žˆ์Œ. -> klue๋Š” 3epochs ๋ถ€ํ„ฐ eval loss ์ฆ๊ฐ€ xlm roberta๋Š” 4epochs๋ถ€ํ„ฐ ์ฆ๊ฐ€
  • RBert ์— ๋‹ค์‹œ ๋„์ „!!
  • dataset์ด ๋‹ฌ๋ผ์ง€๋ฉด resize ํ•  ํ•„์š”๊ฐ€ ์—†์ง€ ์•Š๋‚˜??
  • GRU๋ฅผ ๋ฐฑ๋ณธ model ์œ„์— ์–น๋Š” ์ฝ”๋“œ๋ฅผ ์ž‘์„ฑ. num_layer parameter ์ง€์ •ํ•ด์ฃผ๋ฉด ๋‹ค์ธต layer ์Œ“์•„์ค„ ์ˆ˜ ์žˆ์Œ.
  • concat_entity? -> ์„ธํ˜„๋‹˜ ๊ฒฝ์šฐ์—๋Š” ์ œ๊ฑฐํ•˜์˜€์Œ.
  • "[SEP]" ์ผ๊ด„์ฒ˜๋ฆฌ ๋Œ€์‹  -> tokenizer.sep_token

ํ˜„์ˆ˜

  • ์˜ฌ๋ฆฐ ๋…ผ๋ฌธ resize๋Š” ์•ˆํ•˜๊ณ  token ์ฒซ๋ฒˆ์งธ ์œ„์น˜๋งŒ ๊ฐ€์ ธ์™€์„œ ๋”ด๋‹ค.

์—ฐ์ฃผ

  • ์˜์ง„๋‹˜ ์ฝ”๋“œ ๊ธฐ๋ฐ˜์œผ๋กœ csv ์—์„œ ์˜์–ด->ํ•œ๊ตญ์–ด๋กœ ํ•ด์„œ ๋‹ค์‹œ ํ•ด๋ดค์ง€๋งŒ ์„ฑ๋Šฅ ์ฐจ์ด๊ฐ€ ์—†์—ˆ๋‹ค.
  • special token ์ถ”๊ฐ€ํ•œ ๋ฒ„์ „์œผ๋กœ ์‹คํ—˜์ค‘์— ์žˆ์Œ. -> ์ฐจ์ด๊ฐ€ ์žˆ์„๊นŒ?

์„ฑ์šฑ

  • ์–‘ ๋์— \b ๊ฐ€ ์žˆ๋‹ค. -> ๊ธฐ์กด baseline code slicing์œผ๋กœ ์ฒ˜๋ฆฌํ•ด์ค˜์„œ ์ƒ๊ธฐ๋Š” ๋ฌธ์ œ๊ฐ™์Œ.
  • ์ œ์ผ ์ตœ๊ทผ์— ์™„์„ฑ๋œ csvํŒŒ์ผ๋กœ ๋Œ๋ ธ๋Š”๋ฐ ์ œ์ถœ ์„ฑ๋Šฅ์ด ์•ˆ์ข‹์•„์กŒ๋‹ค..

์„ธํ˜„

  • ALBERT ๋…ผ๋ฌธ ๋ฐœํ‘œ
  • Focal Loss ์„ฑ๋Šฅ ํ™•์‹คํ•˜๋‹ค.
  • RBERT ์„ธํ˜„๋‹˜์ด ๊ตฌํ˜„ํ•œ๊ฒƒ๊ณผ ํฐ ์ฐจ์ด๊ฐ€ ์žˆ์„๊นŒ?
  • lstm ์ถ”๊ฐ€๋กœ ๋ถ™์ด๋Š”๊ฒƒ

pretraining

  • ์ค€ํ™: tokenizer๋Š” ๊ธฐ์กด klue bert, model์€ 50epochs
  • ์„ฑ์šฑ: tokenizer๋„ dataset์— ๋งž์ถฐ ์ œ์ž‘, model 30epochs
  • ์žฌ์˜: tokenizer๋Š” ๊ธฐ์กด klue bert, model์€ ๊ธฐ์กด pretrain ๋œ model์— ์ถ”๊ฐ€๋กœ ๋ฐ์ดํ„ฐ์…‹์„ ํ•™์Šต์‹œ์ผœ์ค€๋‹ค.