Week12 Day3 - ai-esg/our-history GitHub Wiki
ํ NLP 11์กฐ Week12 Day3
๋ชฉ์ฐจ
์ผ์
- 2021.10.20 ์
ํ์
- ๋ฌธ์์_T2075
- ๋ฐ๋ง๋ฃจ์ฐฌ_T2078
- ๋ฐ์๋ฉ_T2090
- ์ฐ์์ง_T2137
- ์ค์ํ_T2142
- ์ฅ๋๊ฑด_T2185
- ํํ์น_T2250
์ฃผ๊ฐ ์ผ์
ํผ์ด์ธ์
์ถ๊ฐ ๊ฒฐ์ ์ฌํญ
- ์ฝ๋ ์ดํด๋ฅผ ์ํด PR์ 6๋ช approve๋ฅผ ๊ธฐ๋ํด๋ณด์.
- ํผ์ด์ธ์ ์์ ์ฝ๋๋ฆฌ๋ทฐ๋ฅผ ํด ๋ณด์ (์ต๋ํ ๋น ๋ฅด๊ฒ)
ํ ๋ถ๋ฐฐ
-
Reader
- ์ฐ์์ง
- ์ค์ํ
- ํํ์น
-
Retrieval
- ๋ฌธ์์
- ์ฅ๋๊ฑด
- ๋ฐ์๋ฉ
- ๋ฐ๋ง๋ฃจ์ฐฌ
Read
- ์์ผ๋ก ์ด๋ค ๋ชจ๋ธ์ ์ฌ์ฉํ ์ง ๊ณ ๋ฅด๊ธฐ -> ๋ ผ๋ฌธ์ฝ๊ณ , ๋ฒค์น๋งํฌ ํ ์ฐธ๊ณ ํ๊ธฐ -> ์ด ๋ชจ๋ธ์ด ์ ์๋๋์ง ์ดํดํ๊ณ , ํ์๋คํํ ์ค๋ช ํ๊ธฐ -> ์คํ๋ ์งํ
- ๋ชฉํ
- MRC Reader์ ์ฌ์ฉํ ๋งํ ๊ธฐ๋ฒ๋ค์ ์์๋ณด๊ธฐ ์ํด ๋ ผ๋ฌธ ์ฐพ์๋ณด๊ธฐ
- trainํ ๋, context ๋ด์์ ๋ต์ ์ฐพ์ ์ ์๋ data๋ ์ฑ๋ฅ์ ๋์์ด ๋์ง ์๋๋ค๋ ๋ ผ๋ฌธ์ด ์กด์ฌ -> train dataset์์ ๋ต์ ์ฐพ์ ์ ์๋ data๋ฅผ ๋นผ๊ณ train ์ํค๋ ๊ฒ๋ ๊ณ ๋ ค.
Retrieval
- ์ฑ๋ฅ์ด ๋๋ฌด ๋์๋ค. ๋น ๋ฅด๊ฒ dense embedding์ ๊ตฌํํ์.
- Dense embedding ๊ณต๋ถํ๊ณ ๋ฐํ, ๊ตฌํ (๋ฐ๋ง๋ฃจ์ฐฌ)
- ๋ชฉํ
- retrieval ํ๊ฐ ์ฒ๋
- f1,re,pre,acc
- Refactoring (๊ฐ์ ์ ์ฉํ๊ณ PR)
- elasticsearch ๋์ ํ ๊ธฐ์กด๊ณผ ๋น๊ต
- ํผํฉํด์ ์ฌ์ฉ(elasticsearch, sparse, dense..)
- retrieval ํ๊ฐ ์ฒ๋
data ๋ถ์ (+ ๊ฐ ํ์ด์ฆ๋ณ input - output)
- ์๊ฐ์ด ๋จ๊ฑฐ๋, ๋ค์ ๋์ ์ด ์ด๋ ต๋ค๋ฉด ์งฌ์ ๋ด์ ์๋ํด ๋ณด์. ๋น ๋ฅผ์๋ก ์ข๋ค.
- max_length retrieval ์ฑ๋ฅ๊ณผ์ ๊ด๊ณ?
- ์ธ๊ตญ์ด 10๊ฐ ์ด์ ๋ฌธ์ฅ์ ์ ์ธ (์ ์ฒ๋ฆฌ ์งํ)
- URL ํ๊ทธ๋ฑ์ด ์ ๊ฑฐ๋์ง ์์ ๋ถ๋ถ์ด ์กด์ฌํ๋ค (๋ค์ ์ ์ฒ๋ฆฌ ํ๋ฒ์ ํด์คํ์๊ฐ ์๋ค.)
- docs title ์ ๊ณผ์ฐ ์ด๋ป๊ฒ ํ์ฉ ์ ์์๊น??