Week14 Day1 - ai-esg/our-history GitHub Wiki
ํ NLP 11์กฐ Week14 Day1
๋ชฉ์ฐจ
์ผ์
- 2021.11.1 ์
ํ์
- ๋ฌธ์์_T2075
- ๋ฐ๋ง๋ฃจ์ฐฌ_T2078
- ๋ฐ์๋ฉ_T2090
- ์ฐ์์ง_T2137
- ์ค์ํ_T2142
- ์ฅ๋๊ฑด_T2185
- ํํ์น_T2250
์ฃผ๊ฐ ์ผ์
Retrieval ์ฑ๋ฅ
- Sparse : top5 ~ 58
- Elastic : top5(84.8), top10(89)
- Dense : top5 ~ 37
์งํ ์ํฉ
- Elastic
- ์๋ฃ. index_config ๋ณ๊ฒฝ์ ํตํด ๋ ๋ค๋ฅธ ์ฑ๋ฅ์ ๊ธฐ๋ํด๋ณผ ์ ์์ ๊ฒ ๊ฐ์.
- Dense
- Epoch์ด 1 ์ด์์ผ ๋, sampling์ ๋ค์ ํ๊ธฐ
- Epoch์ 1 ๋์ด๊ฐ๋ฉด ์ค๋ฒํผํ ์์๋จ (์ค๋ฒํผํ ์ด ๋๋ค๊ณ training acc๊ฐ ~90 ์ด๋ ์ง๋ ์์)
- BM25
- ์๋์ ํ๋๋ก ๋ง๋ค์์ผ๋ ์ฑ๋ฅ์ด ๊ณผํ๊ฒ ์ ์กฐํจ.
ํ ์ผ
-
preprocessing
- preprocessing์ wiki์ context์ ์งํ ์, retrieval์ ์ฑ๋ฅ์ด ์ฝ 0.8%์ ๋ ํฅ์๋จ. reader๋ฅผ ํ์ต์ํฌ ๋, ์ ์ฉํ์ฌ ํ์ต์์ผ๋ณด๋ฉด ์ข์ ๊ฒ ๊ฐ๋ค.
-
post processing ์กฐ์ฌ ์ ๊ฑฐ
- ๋๋ถ๋ถ๋ง. ์ค๊ฐ์ ์กฐ์ฌ๋ ์ ์ง.
-
bm 25 (์ฅ๋๊ฑด, ๋ฐ์๋ฉ)
- ์์ฑ๋์ด ์๋ ์ฝ๋๋ฅผ ๋ณด๊ณ ์ ์ด์ํด๋ณด๊ธฐ.
-
Dense
- Sparse, elastic, dense topk๋ก ํ๋ จํ๊ธฐ
- 1์ํญ ๋ฏธ๋ง ์ฑ๋ฅ ํ์ธ
-
https://www.sbert.net/docs/training/overview.html
- top 30์ ์ฑ๋ฅ์ ์ฝ 48%์ ๋. ๋ง์ด ์ ์กฐํจ.
Ensemble ๊ด๋ จ
-
Reader์ ์ ๋ ฅ n docs๋ฅผ ๋ค๋ฅด๊ฒ ํ๋ ๊ฒ๋ ๋ค๋ฅธ ๋ชจ๋ธ๋ก ์์ ํ ์ ์๊ฒ ๋ค
-
Reader์ ๋ชจ๋ธ์ klue/roberta-large, klue/roberta-base, KoELECTRA, xlm-roberta-large, XLNet ์ค 4๊ฐ ์ ๋ ์ฐ์ ํด๋ณผ ์ ์์ ๊ฒ ๊ฐ๋ค.
-
์ค๋นํด์ผ ํ๋ ๊ฒ:
-
Reader model
- klue/roberta-large (์๋ฃ)
- klue/roberta-base
- KoELECTRA
- xlm-roberta-large
- XLNet
-
Retrieval model (top 5 60์ ๋์ด์ผ ํ ๊ฒ)
- Elastic (์๋ฃ)
- Dense + elastic(top 100)
- Sparse + BM25
-