Week12 Day3 - ai-esg/our-history GitHub Wiki

ํŒ€ NLP 11์กฐ Week12 Day3

๋ชฉ์ฐจ

์ผ์ž

  • 2021.10.20 ์ˆ˜

ํŒ€์›

  • ๋ฌธ์„์•”_T2075
  • ๋ฐ•๋งˆ๋ฃจ์ฐฌ_T2078
  • ๋ฐ•์•„๋ฉ˜_T2090
  • ์šฐ์›์ง„_T2137
  • ์œค์˜ํ›ˆ_T2142
  • ์žฅ๋™๊ฑด_T2185
  • ํ™ํ˜„์Šน_T2250

์ฃผ๊ฐ„ ์ผ์ •

ํ”ผ์–ด์„ธ์…˜

์ถ”๊ฐ€ ๊ฒฐ์ •์‚ฌํ•ญ

  • ์ฝ”๋“œ ์ดํ•ด๋ฅผ ์œ„ํ•ด PR์‹œ 6๋ช… approve๋ฅผ ๊ธฐ๋Œ€ํ•ด๋ณด์ž.
  • ํ”ผ์–ด์„ธ์…˜์—์„œ ์ฝ”๋“œ๋ฆฌ๋ทฐ๋ฅผ ํ•ด ๋ณด์ž (์ตœ๋Œ€ํ•œ ๋น ๋ฅด๊ฒŒ)

ํŒ€ ๋ถ„๋ฐฐ

  • Reader

    • ์šฐ์›์ง„
    • ์œค์˜ํ›ˆ
    • ํ™ํ˜„์Šน
  • Retrieval

    • ๋ฌธ์„์•”
    • ์žฅ๋™๊ฑด
    • ๋ฐ•์•„๋ฉ˜
    • ๋ฐ•๋งˆ๋ฃจ์ฐฌ

Read

  • ์•ž์œผ๋กœ ์–ด๋–ค ๋ชจ๋ธ์„ ์‚ฌ์šฉํ• ์ง€ ๊ณ ๋ฅด๊ธฐ -> ๋…ผ๋ฌธ์ฝ๊ณ , ๋ฒค์น˜๋งˆํฌ ํ‘œ ์ฐธ๊ณ ํ•˜๊ธฐ -> ์ด ๋ชจ๋ธ์ด ์™œ ์ž˜๋˜๋Š”์ง€ ์ดํ•ดํ•˜๊ณ , ํŒ€์›๋“คํ•œํ…Œ ์„ค๋ช…ํ•˜๊ธฐ -> ์‹คํ—˜๋„ ์ง„ํ–‰
  • ๋ชฉํ‘œ
    • MRC Reader์— ์‚ฌ์šฉํ•  ๋งŒํ•œ ๊ธฐ๋ฒ•๋“ค์„ ์•Œ์•„๋ณด๊ธฐ ์œ„ํ•ด ๋…ผ๋ฌธ ์ฐพ์•„๋ณด๊ธฐ
  • trainํ•  ๋•Œ, context ๋‚ด์—์„œ ๋‹ต์„ ์ฐพ์„ ์ˆ˜ ์—†๋Š” data๋Š” ์„ฑ๋Šฅ์— ๋„์›€์ด ๋˜์ง€ ์•Š๋Š”๋‹ค๋Š” ๋…ผ๋ฌธ์ด ์กด์žฌ -> train dataset์—์„œ ๋‹ต์„ ์ฐพ์„ ์ˆ˜ ์—†๋Š” data๋ฅผ ๋นผ๊ณ  train ์‹œํ‚ค๋Š” ๊ฒƒ๋„ ๊ณ ๋ ค.

Retrieval

  • ์„ฑ๋Šฅ์ด ๋„ˆ๋ฌด ๋‚˜์˜๋‹ค. ๋น ๋ฅด๊ฒŒ dense embedding์„ ๊ตฌํ˜„ํ•˜์ž.
  • Dense embedding ๊ณต๋ถ€ํ•˜๊ณ  ๋ฐœํ‘œ, ๊ตฌํ˜„ (๋ฐ•๋งˆ๋ฃจ์ฐฌ)
  • ๋ชฉํ‘œ
    1. retrieval ํ‰๊ฐ€ ์ฒ™๋„
      • f1,re,pre,acc
    2. Refactoring (๊ฐ์ž ์ ์šฉํ•˜๊ณ  PR)
    3. elasticsearch ๋„์ž… ํ›„ ๊ธฐ์กด๊ณผ ๋น„๊ต
    4. ํ˜ผํ•ฉํ•ด์„œ ์‚ฌ์šฉ(elasticsearch, sparse, dense..)

data ๋ถ„์„ (+ ๊ฐ ํŽ˜์ด์ฆˆ๋ณ„ input - output)

  • ์‹œ๊ฐ„์ด ๋‚จ๊ฑฐ๋‚˜, ๋‹ค์Œ ๋„์ „์ด ์–ด๋ ต๋‹ค๋ฉด ์งฌ์„ ๋‚ด์„œ ์‹œ๋„ํ•ด ๋ณด์ž. ๋น ๋ฅผ์ˆ˜๋ก ์ข‹๋‹ค.
  • max_length retrieval ์„ฑ๋Šฅ๊ณผ์˜ ๊ด€๊ณ„?
  • ์™ธ๊ตญ์–ด 10๊ฐœ ์ด์ƒ ๋ฌธ์žฅ์€ ์ œ์™ธ (์ „์ฒ˜๋ฆฌ ์ง„ํ–‰)
  • URL ํƒœ๊ทธ๋“ฑ์ด ์ œ๊ฑฐ๋˜์ง€ ์•Š์€ ๋ถ€๋ถ„์ด ์กด์žฌํ•œ๋‹ค (๋‹ค์‹œ ์ „์ฒ˜๋ฆฌ ํ•œ๋ฒˆ์€ ํ•ด์ค„ํ•„์š”๊ฐ€ ์žˆ๋‹ค.)
  • docs title ์€ ๊ณผ์—ฐ ์–ด๋–ป๊ฒŒ ํ™œ์šฉ ์ˆ˜ ์žˆ์„๊นŒ??