2021 10 25 - KR-HappyFace/meetup-logs GitHub Wiki

ํšŒ์˜๋ก

์ด๋ฒˆ์ฃผ ๋ชจ๋”๋ ˆ์ดํ„ฐ๋Š” ์„ฑ์šฑ๋‹˜์ด ๐Ÿ‘

Elastic Search

  • ์„ฑ๋Šฅ ํ™•์‹คํ•จ

  • Top-k: 5

  • ์•ž์œผ๋กœ ํ•ด๋ณผ ๊ฒƒ

    • ๋ถˆ์šฉ์–ด ์ฒ˜๋ฆฌ
  • tokenizer truncation : tokenizing๋œ ๊ธธ์ด๊ฐ€ ๋ชจ๋ธ ์ธํ’‹ ์‚ฌ์ด์ฆˆ๋ณด๋‹ค ๋” ๊ธธ๋‹ค.

    • BM25์—์„œ ์ด๋Ÿฐ ์—๋Ÿฌ๊ฐ€ ๋ฐœ์ƒํ•œ๋‹ค.
    • ์ด๋Ÿด ๋•Œ, tokenizer์—์„œ ์ž๋™์œผ๋กœ truncation์„ ํ•˜์ง€๋Š” ์•Š๋Š”๋‹ค.
    • Sparse Retrieval์—์„œ๋Š” ๊ธธ์ด ๋ฌธ์ œ๊ฐ€ ํฌ๊ฒŒ ์ƒ๊ด€์—†๋‹ค?!
    • AutoTokenizer๋ฅผ ๊ฐ€์ ธ์˜ค๊ณ  ๋‹น์—ฐํžˆ Model์— ๋„ฃ์„ ์ค„ ์•Œ๊ณ  ์—๋Ÿฌ๊ฐ€ ๋ฐœ์ƒํ•˜๋Š” ๊ฒƒ ๊ฐ™๋‹ค.
  • DPR -> Batch_size๋ฅผ ๋†’์ด๋Š” ๊ฒŒ ์ข‹์€๋ฐ, ์ง€๊ธˆ ๋Œ๋ฆฌ๊ณ  ์žˆ๋Š” ๊ฒƒ์€ 4์ •๋„ ๋ฐ–์— ์•ˆ๋œ๋‹ค. ์„ฑ๋Šฅ์ด ์ข‹๊ฒŒ ๋ ๊นŒ??

    • Accumulation์„ ์ ์šฉํ•ด๋ณด์ž! ๊ทธ๋Ÿฌ๋ฉด ๋…ผ๋ฌธ์ฒ˜๋Ÿผ 128์„ ๋งŒ๋“ค ์ˆ˜ ์žˆ์ง€ ์•Š์„๊นŒ??
  • DPR to READER -> DPR์—์„œ ๋„˜๊ฒจ์ค„ ๋•Œ ๋ฐ์ดํ„ฐ์˜ format์„ ์ผ์น˜์‹œ์ผœ์ฃผ์–ด์•ผ ํ•œ๋‹ค.

  • Tokenizer๋ฌ์„ ๋•Œ ์ •๋‹ต token์„ ์ธ๋ฑ์‹ฑํ•˜๊ณ  ์‹ถ๋‹ค. ์–ด๋–ป๊ฒŒ ํ•ด์•ผํ• ๊นŒ?

    • ์ •๋‹ต token์„ Maskํ•œ ํ›„์— ์ด๋ฅผ tokenizeํ•ด์„œ mask์ธ ๋ถ€๋ถ„์— ๋Œ€ํ•ด์„œ index๋ฅผ ๋ฐ˜ํ™˜ํ•œ๋‹ค.
  • Elastic Search + DPR ๊ฐ€๋Šฅ?!

  • Reconsider ์ ์šฉํ•ด๋ณด๊ธฐ