Week14 Day4 - ai-esg/our-history GitHub Wiki

ํŒ€ NLP 11์กฐ Week14 Day4

๋ชฉ์ฐจ

์ผ์ž

  • 2021.11.04 ๋ชฉ

ํŒ€์›

  • ๋ฌธ์„์•”_T2075
  • ๋ฐ•๋งˆ๋ฃจ์ฐฌ_T2078
  • ๋ฐ•์•„๋ฉ˜_T2090
  • ์šฐ์›์ง„_T2137
  • ์œค์˜ํ›ˆ_T2142
  • ์žฅ๋™๊ฑด_T2185
  • ํ™ํ˜„์Šน_T2250

์ฃผ๊ฐ„ ์ผ์ •

Ensemble ๊ด€๋ จ

  • Reader ์•™์ƒ๋ธ”
    • Hard voting
      • koelectra๋ฅผ ์ œ์™ธํ•˜๊ณ  ์•™์ƒ๋ธ” ์ง„ํ–‰ํ•œ EM 65.8 ๋กœ ์ตœ์ข… ์ œ์ถœ.
      • ๋‹จ์ผ ๋ชจ๋ธ ์ตœ๊ณ  ์„ฑ๋Šฅ EM 60.

์ตœ์ข… ์ œ์ถœ

  • Retrieval
    • bm25, ์—˜๋ผ์Šคํ‹ฑ ์„œ์น˜
  • Reader
    • Roberta-large, Roberta-large๊ธฐ๋ฐ˜ custom model

Dense

  • ํ›ˆ๋ จ ์—ํญ ๋Š˜๋ฆด ๋•Œ ์„ฑ๋Šฅ์ด ๋–จ์–ด์ง€๋Š” ์ด์œ ๋Š” negative sample์— ์ •๋‹ต ๋ฌธ์„œ๊ฐ€ ๋“ค์–ด๊ฐ€๋Š” ๊ฒฝ์šฐ ๋•Œ๋ฌธ
  • in-batch training์œผ๋กœ ์ž˜๋ชป๋œ ๋ฐ์ดํ„ฐ์…‹ ๊ตฌํ˜„์„ ํ”ผํ•˜๋‹ˆ, ํ›ˆ๋ จ ์—ํญ๊ณผ train score๊ฐ€ ๋น„๋ก€ํ•˜๋Š” ๊ฒƒ์„ ํ™•์ธ
  • ๋” ๋†’์€ ์„ฑ๋Šฅ์„ ์œ„ํ•ด์„œ BM25 top-k ๋ฌธ์„œ๋ฅผ ์–ด๋–ป๊ฒŒ ํ™œ์šฉํ•˜๋Š”์ง€ ์•Œ์•„๋ณผ ๊ฒƒ

๋ฉ˜ํ† ๋ง

  • ์•™์ƒ๋ธ”์€ ๋Œ€ํšŒ๋ฅผ ์œ„ํ•œ ๊ธฐ๋ฒ•์ผ ๋ฟ์ด๋‹ค.
  • ์—˜๋ผ์Šคํ‹ฑ ์„œ์น˜๋ฅผ ๋„˜๊ธฐ๋ž€ ์–ด๋ ค์šด ์ผ์ด๋‹ค. Dense๋กœ ๊ทธ ์ •๋„ ์„ฑ๋Šฅ์ด ํž˜๋“ค๋‹ค.
  • ๋‚ด๊ฐ€ ์ ‘ํ•ด๋ณด์ง€ ์•Š์€ ํ‚ค์›Œ๋“œ๋ฅผ ์ตํ˜€๊ฐ€๋Š” ๊ฒƒ์ด ๋ถ€์ŠคํŠธ์บ ํ”„์—์„œ ํฌ๊ฒŒ ์–ป๋Š” ๊ฒƒ์ด๋‹ค.
  • ํด๋ผ์šฐ๋“œ, ํ”„๋ก ํŠธ์—”๋“œ, db ๋“ฑ์ด ๋“ค์–ด๊ฐ€๋ฏ€๋กœ ์ดํ›„์˜ ๊ณผ์ •์€ ๋ฆฌ๋ˆ…์Šค ๋“ฑ์„ ์•Œ์•„์•ผ๋งŒ ์ง„ํ–‰์ด ์šฉ์ดํ•˜๋‹ค.
    • ํ”„๋กœ๊ทธ๋ž˜๋จธ์Šค sql ๋ฌธ์ œ๋Š” ๋ฌธ์ œ์œ„์ฃผ. ์‹ค์ „์—์„œ ์ฟผ๋ฆฌ๋ฌธ ๋“ฑ์„ ์ž˜ ์“ฐ๋Š” ๋ฐฉ๋ฒ•์„ ์ตํ˜€๋‘์ž.
  • ๋งŽ์€ ๊ธฐ์—…๋“ค์ด ํ™๋ณด์ฐจ ๋„คํŠธ์›Œํ‚น๋ฐ์ด์— ์ฐธ์—ฌ. ๋‹ค๋งŒ ์ง„์งœ ๊ฑฐ๊ธฐ์„œ ๋ฝ‘๋Š”๊ฑด ์•„๋‹˜. ๊ทธ๋ƒฅ ์ดํ•ด๊ด€๊ณ„๊ฐ€ ๋งž๋ฌผ๋ ธ์„ ๋ฟ?
  • ์ œ๋Œ€๋กœ ์—…๋ฌด ํ”„๋กœ์„ธ์Šค๊ฐ€ ๊ตด๋Ÿฌ๊ฐ€์ง€ ์•Š๋Š” ํšŒ์‚ฌ์— ๊ฐ€์ง€ ๋ง์ž โ†’ ๊ณ ์น˜๊ธฐ ์–ด๋ ต๊ณ  ๋‚˜์ค‘์— ๊ฒฝ๋ ฅ์„ ์–ดํ•„ํ•˜๊ธฐ๊ฐ€ ํž˜๋“ฌ
  • ๋ฌธ์ œ ๊ณต์œ  ๊ฐ€๋Šฅ. ์ฒœ์žฌ๋‹ฎ! ์ฒœ์žฌ๋‹ฎ!