Week8 Day2 - ai-esg/our-history GitHub Wiki

ํŒ€ NLP 11์กฐ Week8 Day2

๋ชฉ์ฐจ

์ผ์ž

  • 2021๋…„ 09์›” 24์ผ

ํŒ€์›

  • ๋ฌธ์„์•”_T2075
  • ๋ฐ•๋งˆ๋ฃจ์ฐฌ_T2078
  • ๋ฐ•์•„๋ฉ˜_T2090
  • ์šฐ์›์ง„_T2137
  • ์œค์˜ํ›ˆ_T2142
  • ์žฅ๋™๊ฑด_T2185
  • ํ™ํ˜„์Šน_T2250

์ฃผ๊ฐ„ ์ผ์ •

ํ”ผ์–ด์„ธ์…˜

ํ•™์Šต ๊ณต์œ 

  • inflearn ๋“ค์–ด์š”

  • ์„ ํƒ๊ณผ์ œ 3 Byte pair encoding

    • ์˜์–ด 1๊ธ€์ž์— 1byte
    • ๋ฐ์ดํ„ฐ์˜ ๋‹จ์–ด๋“ค์—์„œ ๋ฐ˜๋ณต์ˆ˜๊ฐ€ ๋†’์€ byte์Œ ์ˆœ์œผ๋กœ ๋‹จ์–ด์ง‘ํ•ฉ์— ์ถ”๊ฐ€
    • ์งˆ๋ฌธ : word๋ฅผ subword๋กœ ๋ถ„ํ•ดํ•˜๋Š”๋ฐ ์žˆ์–ด์„œ ์–ด๋–ค subword๊ฐ€ ์ข‹์€๊ฐ€์— ๋ชฉ์ ์ด ์žˆ๋Š”๊ฑฐ์ฃ ? ๊ทธ๋ž˜์„œ ๋นˆ๋„ ๋†’์€ ์„ ์šฐ์„ ์œผ๋กœ ํ•ด์„œ ๋ญ‰์ณ์„œ ์ตœ๋Œ€ํ•œ ์ข‹์€ subword๋ฅผ ์ฐพ๋Š” ๋ฐฉ์‹์ด๋ผ๊ณ  ๋ด๋„ ๋ ๊นŒ์š”? ->
    • ์งˆ๋ฌธ : BPE์—์„œ ์˜ˆ๋ฅผ๋“ค์–ด e๊ฐ€ ei, ea, eo, ee ๋“ฑ์œผ๋กœ ํ‘œํ˜„๋˜๊ณ , ์ด๊ฒƒ์˜ ๋นˆ๋„๊ฐ€ ๋งค์šฐ ์ปค์„œ ๊ฒฐ๊ตญ e*๊ผด์ด ๋ชจ๋‘ subword์‚ฌ์ „์— ๋“ค์–ด๊ฐ„๋‹ค๋ฉด e๋ฅผ ๋ฒ„๋ฆฌ๋Š” ์ž‘์—…์ด ์กด์žฌํ•˜๋‚˜์š”? ์•„๋‹ˆ๋ฉด ๊ณ„์† e๋ฅผ ๋“ค๊ณ ์žˆ๋‚˜์š”? -> ๊ณ„์† e๋ฅผ ๋“ค๊ณ  ์žˆ์Œ