Week13 Day1 - ai-esg/our-history GitHub Wiki
ํ NLP 11์กฐ Week13 Day1
๋ชฉ์ฐจ
์ผ์
- 2021.10.25 ์
ํ์
- ๋ฌธ์์_T2075
- ๋ฐ๋ง๋ฃจ์ฐฌ_T2078
- ๋ฐ์๋ฉ_T2090
- ์ฐ์์ง_T2137
- ์ค์ํ_T2142
- ์ฅ๋๊ฑด_T2185
- ํํ์น_T2250
์ฃผ๊ฐ ์ผ์
ํผ์ด์ธ์
์ถ๊ฐ ๊ฒฐ์ ์ฌํญ
- ์ฝ๋ ์ดํด๋ฅผ ์ํด PR์ 6๋ช approve๋ฅผ ๊ธฐ๋ํด๋ณด์.
- ํผ์ด์ธ์ ์์ ์ฝ๋๋ฆฌ๋ทฐ๋ฅผ ํด ๋ณด์ (์ต๋ํ ๋น ๋ฅด๊ฒ)
ํ ๋ถ๋ฐฐ
-
Reader
- ์ฐ์์ง
- ์ค์ํ
- ํํ์น
-
Retrieval
- ๋ฌธ์์
- ์ฅ๋๊ฑด
- ๋ฐ์๋ฉ
- ๋ฐ๋ง๋ฃจ์ฐฌ
Retrieval
-
ํ์ต์ด ์ ๋์ง ์๋๋ค. ์ด์ํ๊ฑธ ํ์ตํ๋ค.
- negative์ positive๋ฅผ ๋๋คํ๊ฒ ์์ด์ ํ์ต์์ผ๋ณด์
-
๋ชจ๋ธ์ด ํ์ตํ๋ ๊ฒ์ Negative์ ๋ํด์ vector ๊ฑฐ๋ฆฌ๋ฅผ ๋๋๊ฑด ๋ง์ง๋ง ์ ์ฌํ ๊ฒ ๋ผ๋ฆฌ ๋น๊ตํ๋ ์ฑ๋ฅ์ด ๋น๊ต์ ๋๋ฌด ๋จ์ด์ง
data ๋ถ์ (+ ๊ฐ ํ์ด์ฆ๋ณ input - output)
- ์๊ฐ์ด ๋จ๊ฑฐ๋, ๋ค์ ๋์ ์ด ์ด๋ ต๋ค๋ฉด ์งฌ์ ๋ด์ ์๋ํด ๋ณด์. ๋น ๋ฅผ์๋ก ์ข๋ค.
- max_length retrieval ์ฑ๋ฅ๊ณผ์ ๊ด๊ณ?
- ์ธ๊ตญ์ด 10๊ฐ ์ด์ ๋ฌธ์ฅ์ ์ ์ธ (์ ์ฒ๋ฆฌ ์งํ)
- URL ํ๊ทธ๋ฑ์ด ์ ๊ฑฐ๋์ง ์์ ๋ถ๋ถ์ด ์กด์ฌํ๋ค (๋ค์ ์ ์ฒ๋ฆฌ ํ๋ฒ์ ํด์คํ์๊ฐ ์๋ค.)
- docs title ์ ๊ณผ์ฐ ์ด๋ป๊ฒ ํ์ฉ ์ ์์๊น??
์ํฉ
Test - set (Val)
TOP-5 30 (dense none in-batch)
TOP-5 28 (dense in-batch)
TOP-5 49.7 (sparse) (๋ฐฉ๊ธ)
์์ ์ฐ์ ์์ (์์์ผ)
- dense_retrieval.py ์ฝ๋์ ๋ฆฌ (์ค๋ ๊ฐ์ด) ์งํํ PR
- Inference (Spare , Dense)
- Spare Top-N -> ๋ฐ์ดํฐ ๋ก๋ ๊ตฌ์ฑ (๋ผ๋ฒจ, N๊ฐ์ ์ ์ฌ ๋ฌธ์, ๋๋ค) (์๋ฉ)
- ์คํ์ ๋ํ ๊ฒฐ๊ณผ๋ฅผ ๋ณผ ์ ์๋๊ฒ ์๋๊ฐ
- ์ ์ฒ๋ฆฌ (์์)
- BM25 (๋๊ฑด)
- ์๋ผ์คํฑ (์์ง, ์ํ, ํ์น)
- top-10 ์ง์ง ์ข๋ค
- ํ ๋ก ๊ฒ์ํ dense retrieval 48%(val set) ๋ฒค์น๋งํฌ (๋ง๋ฃจ์ฐฌ)
- model ๋ณ๊ฒฝ (multi-lingual ์จ๋ณด๋ฉด ์ด๋จ๊น?)
- hybrid (๋ฐฉ๋ฒ๋ก ์ด ๋ง์)
- ์ ์ํ