Week20 Day5 - ai-esg/our-history GitHub Wiki
https://magnetikonline.github.io/markdown-toc-generate/
ํ NLP 11์กฐ Week20 Day4
๋ชฉ์ฐจ
์ผ์
- 2021.12.16 ๋ชฉ
ํ์
- ๋ฌธ์์_T2075
- ๋ฐ๋ง๋ฃจ์ฐฌ_T2078
- ๋ฐ์๋ฉ_T2090
- ์ฐ์์ง_T2137
- ์ค์ํ_T2142
- ์ฅ๋๊ฑด_T2185
- ํํ์น_T2250
์ฃผ๊ฐ ์ผ์
- 1์ฃผ์ฐจ ๋ฉํ ๋ง 12/10(๊ธ) 16:00
- 2์ฃผ์ฐจ ๋ฉํ ๋ง 12/15(์) 16:30
- 3์ฃผ์ฐจ ๋ฉํ ๋ง 12/20(์) 16:00
ํผ์ด์ธ์
์ต์ข ํ๋ก์ ํธ
ํ์ ๋งํฌ
์ต์ข ํ๋ก์ ํธ์์ ์์ฑ
install_requirements ์์ฑ์ ์ํํํฉ์๋ค~!
12/17์ผ์ ์ด์ ์ฌํญ
- DAPT์ ์ฌ์ฉ๋ ๋ฐ์ดํฐ์ ๋ํด ๊ณ ๋ฏผ (์ ์ฒ๋ฆฌ ์์ค ๋ฐ ๋ค์ด๊ฐ ๋ฐ์ดํฐ)
- ํด๋๋ช : 12/16 ๊ธฐ์กด + ๋์ด์ฐ๊ธฐ ์ ์ฒ๋ฆฌ๋ง ํ ํ์ผ
- Dense ๋ชจ๋ธ ๊ทธ๋๋ก ์ถ๊ฐํ์์ผ๋ ์ง์ญ์ด ๋ง์ง ์์ ๋ฐ์ดํฐ๊ฐ ๋์์ API ์ค๋ฅ๊ฐ ์๊ธฐ๋ ๋ฌธ์ ๋ฐ์ (ISSUE ์ฐธ๊ณ )
- ํํ๊ฐ๋๊ตดํผ์
ํ๋ก์ ํธ (์ฃผ๋ง ๊ณผ์ )
- ์น ์๋น์ค ์ด๋ฆ
- "์๊ฒฌ"
- ์์ด์ฝ
- "์๊ฒฌ"
- ๋ฐ๋ด ์ธ๋ฐ๋ด ์ด๋ฏธ์ง
- "์๊ฒฌ"
์์
FE
- ์ปดํฌ๋ํธ ๊ตฌ์กฐ๋ก ๋ณ๊ฒฝ
- ๋๋๋ค์ด ์ถ๊ฐ ํ์
- ์ ์ฌ ๋ช ์ ๊ฒ์์์ ๋๋๋ค์ด ์กฐ๊ฑด ๋ณ๊ฒฝ
- '๋นจ๋ฆฌ๋นจ๋ฆฌ'
- ์ด๋ฏธ์ง ์์ ์ฒ๋ฆฌ ํ์
- ์๋ต ๋ณด์ฌ์ฃผ๊ธฐ
- Logging page ๋๋ ์ปดํฌ๋ํธ
- ๋์์ธ ์ด์ฉ์ง...
- error page
BE (FE ์์ ๋ชจ๋ํ ์์ ํ๊ฑฐ ํ์ํ๋ฉด ํก์ฃผ์ธ์ฉ~!)
- cookiecutter ํ๋ก์ ํธ ๊ตฌ์กฐ github ์ ๋ก๋
- API ๋ฌธ์
- Model API
- Tour API
- Log API
- ์ฌ๊ธฐ์ ์ถํ ์์
- ๊พธ์คํ feedback data
- DB ๊ตฌ์ถ
- cloud storage
Model
- Sparse
- Dense
๋ฐ์ดํฐ
- dense ํ๋ จ query context pair์ ๋ํ ์์ฌ
- ํ ๋ฐฉ์ : Sparse ๊ธฐ์ค ๊ด๋ จ๋ ๋์ ๋ฌธ์ ๋ผ๋ฆฌ ๊ฒฐํฉ ์๊ฒฌ
- ์ฐ์ ์ง์ ๋ณด๊ธฐ
- ๋ฆฌ๋ทฐ, ๋ธ๋ก๊ทธ ์์ N ๊ฐ๋ง์์ Sparse
- context ->
- ๋ฐ์ดํฐ ๋์ผ๋ก ์์ฐฝ ๋๋ ค๋ณด๋๊ฒ๋... -> Pair ์๋ฅผ ๊ฐ๋ฅํ ๋๋ ค๋ณด๋ ๋ฐฉ์
๊ฐ์ธ์ ์ผ๋ก ์๊ฐํ๋ ํ ์คํธ (์งํํ ํ ์คํธ๋ ๊ผญ ์คํ ์์ฑํ์)
์๊ฐํ ํ๊ฐ์งํ
- 5 pair ๊ธฐ์ค pair 4:1 ๋ก train val ๋ถ๋ฆฌํ ์ ์ ํ์ธ
- ์ฆ pair๋ฅผ 8:2๋ก ๋ถ๋ฆฌ ํ train val ์ ์ ํ์ธ
- top-k 5,10 ๋ฑ์ผ๋ก ๊ณ ์ ํ ํ์ธ
sparse(์ ์ฌ ๋ช ์ ๊ฒ์)
- ์ถ๊ฐ์ ์ผ๋ก ์ ์ฌ ๋ช
์ ๊ฒ์์์๋ pair ๋ฐ์ดํฐ์ ์๋ ๋ช
์ ๋ฐ์ดํฐ์ ๋ชจ๋ context(๊ฐ๋ฅํ ๋ง์ ๋ธ๋ก๊ทธ ๋ฐ์ดํฐ)๋ฅผ ์ฌ์ฉํด๋ณด๋๊ฒ ์ด๋ค์ง
- ํด๋๋ช
:12/16 blog_limit30
- ์์ธ์ ์ผ๋ก pair ์ฌ์ฉ์ด ์๋ result_prepro.json, info_prepro.json๋ฅผ ์ฌ์ฉํ์๋ฉด ๋ฉ๋๋ค
- ํด๋๋ช
:12/16 blog_limit30
dense (baseline ์ ํ ๋ถํฐ ์งํํ ํ์๊ฐ ์์ ๋ํ ํ๊ฐ ๊ธฐ์ค์ ์ด๋ป๊ฒ ํ ์ง ๊ณ ๋ฏผํ ํ์๋ ์์)
-
1. ๋ธ๋ก๊ทธ ์ต์ ๊ธธ์ด 100 pair ์ 5๊ฐ - ์ํ
- ํด๋๋ช : 12/13 ์ ์ฒ๋ฆฌ + ๋ธ๋ก๊ทธ ์ต์ len 100
- base ๊ธฐ์ค์ ๊ตฌ์ฑ
-
2. [1] + ๋ธ๋ก๊ทธ ๋์ด์ฐ๊ธฐ ์ ์ฒ๋ฆฌ ์งํ - ์ํ
- ํด๋๋ช : 12/16 ๊ธฐ์กด + ๋์ด์ฐ๊ธฐ
- ๋ธ๋ก๊ทธ ๋์ด์ฐ๊ธฐ์ ๋ํ ์ํฅ๋ ฅ ๋ถ์ vs [1]
-
3. [1] + [2] + tokenizer input ๋ณ๊ฒฝ - ๋ฐ๋ง๋ฃจ์ฐฌ
- ํด๋๋ช : 12/16 tokenizer
- Sparse ํ ํฌ๋์ด์ ๋ณ๊ฒฝ
- ๋จ stemming ์ ๊ณ ๋ ค ์ํจ (์ถํ์๊ฐํด๋ณผ๊ฒ์..)
- ํน์๋ฌธ์๋ค ์ฃ๋ค ๊ณ ๋ ค ์ ์ธ (์ ๊ฑฐ)
- stopword ์ ๊ฑฐ ๋ฒ์ ์ ๋ง๋ค์ด๋ด์ผํ๋..?
- ๊ทธ๋ผ ๊ทธ๋ฅ ์๋ผ์คํฑ ์์น ์ฐ๋๊ฒ ์ข์๋ฏ?
- vs [2]
-
4.
pair ๋งค์นญ ๊ธฐ์ค ๋ณ๊ฒฝ..?- ์ด๋ป๊ฒ ์งํํ ์ง ๊ณ ๋ คํ ๊ฒ ํ์ํจ ์ด๋ป๊ฒ ๋ณด๋ฉด 3๋ฒ์ ํ์ฅ
- vs [1]
-
๋จ ๋์ด์ฐ๊ธฐ๋ฅผ ๋ค์ ์ก๋ ๊ฒ์ ์๊ฐ์ด ๋๋ฌด ์ค๋ ๊ฑธ๋ฆฌ๋ฏ๋ก ๋์ด์ฐ๊ธฐ ์ ์ฒ๋ฆฌ ์ ์ธ (์ดํ ๊ฐฏ์ 30๊ฐ ์ ๋ถ ๋์ผ)
-
5. context ๊ฐฏ์๊ฐ 30 ์ด์ (pair 5๊ฐ) - ํํ์น
- ํด๋๋ช : 12/16 blog_limit30
- context ์ด๊ธฐ ๊ฐฏ์์ ์ํฅ๋ ฅ ๋ถ์
- vs [1]
-
6. context ๊ฐฏ์๊ฐ 100 ์ด์ + pair ์ 10๊ฐ - ๋ฐ์๋ฉ
- ํด๋๋ช : 12/16 pair10
- pair ๊ฐฏ์ ์ํฅ๋ ฅ๋ถ์ vs [2]
-
7. ์์์ ๋ฐ์ดํฐ vs [2] - ๋ฐ๋ง๋ฃจ์ฐฌ
- ํด๋๋ช : 12/17์์์ ๋ฐ์ดํฐ
- vs [2]
- split chunk - ๋ฌธ์์
- context ๋ฒ๋ฆฌ๊ธฐ
- ์ง์ด ํ์ context ์ด ๊ฐฏ์ 5๊ฐ
- ์ง์ญ ๋ณ๋ก ์งํํ ํ
๋ฐ
- ์ง์ญ ๋ณ ๊ฐฏ์:
- ์์ธ : 725
- ์ธ์ฒ : 395
- ๋์ : 145
- ๋๊ตฌ : 245
- ๊ด์ฃผ : 130
- ๋ถ์ฐ : 380
- ์ธ์ฐ : 180----------2200 ๋ฐ์๋ฉ
- ์ธ์ข ํน๋ณ์์น์ : 45
- ๊ฒฝ๊ธฐ๋ : 1115
- ๊ฐ์๋ : 995
- ์ถฉ์ฒญ๋ถ๋ : 420------2575 ๋ฐ๋ง๋ฃจ์ฐฌ
- ์ถฉ์ฒญ๋จ๋ : 770
- ๊ฒฝ์๋ถ๋ : 805
- ๊ฒฝ์๋จ๋ : 870------2445 ํํ์น
- ์ ๋ผ๋ถ๋ : 430
- ์ ๋ผ๋จ๋ : 625
- ์ ์ฃผ๋ : 825--------1880 ์ค์ํ
- ์ง์ญ ๋ณ ๊ฐฏ์:
-
8. DAPT ์งํ ->
- DAPT ์ํฅ๋ ฅ ๋ถ์ VS [2]
-
9. context ๊ฐฏ์๊ฐ 30 ์ด์ + pair ์ 10๊ฐ
- ์ ์ฑ๋ฅ ๋น๊ต ํ ํ์์ ์ ๋ก๋ ์์
feature ์ถ๊ฐ
- ๋ฐ์ดํฐ์ ๋ฌด์กฐ๊ฑด overview ์ถ๊ฐํ๋๊ฑฐ ๊ด์ฐฎ์์ง๋..?
- ๋ฌธ์ ๋ query ์ธ๋ฐ....
ํ๋ฉด ์ข์๊ฑฐ
- Load balancing
- Docker
- Kubernetes