2021 09 30 - KR-HappyFace/meetup-logs GitHub Wiki
์คํ
- Accuracy๊ฐ ๋์์ง๋๋ฐ, Loss๊ฐ ์ ์ฌ๋ผ๊ฐ๋๊ฐ?
- ๋ชจ๋ธ ๋ฐ๊ฟ๊ฐ๋ฉด์ ์คํ์ ์งํํ์.
์ฌ์
- Data Augmentation: Subject๋ Object๋ฅผ ๋ฐ๊พธ๋ฉด ๊ด๊ณ๋ฅผ ์ฐพ๋ ๊ฑฐ์์์. ์ฆ subject, object์ ์์๋ฅผ ๋ฐ๊ฟ์ Organization <-> Organization ๊ด๊ณ๋ Person <-> Person ๊ด๊ณ๋ฅผ ํค์๋ดค์ด์. ์๋ ๋ถ์กฑํ ๋ฐ์ดํฐ๋ค ์์์์.
- Data Augmentation: KoEDA RandomSwap์ ํด๋ณด์. Random Deletion์ ์ ๋๋ ๊ฒ target ๋จ์ด๋ ์ง์ธ ์ ์์ผ๋๊น.
- Organization <-> ๋ ์ง๋ ๋ค์ง์ ์๊ฐ ์์ ๊ฒ ๊ฐ์์. ๊ทธ๋ฌ๋ฉด ํธํฅ์ฑ์ด ์ฌํ ์ ์๋ค๋ ์๊ฐ์ ํ์ด์.
- ์๋๋ฉด ์๋ค ์์๋ฅผ ๋ฐ๊ฟ์ trainํ ๋ค์์ ensembleํ๋ ๋ฐฉ์์ ํ์ด์.
- ๊ฐ์์์ NERํ ๋ ์์ ๋จ์๋ก ๋๋ ์ train์ํค๋๋ฐ, ์ ๋ ์ด๋ ๊ฒ ํด๋ณผ๊น ์๊ฐ์ ํด๋ดค์ด์. ์ ์ด์ subword ๋จ์๋ก ๋๋๋ฉด ์ ๋๋๊น ๊ธ์๋จ์๋ก ์ชผ๊ฐ ๋ค.
์ธํ
- Special Token [SUB] [/SUB], [OBJ], [/OBJ]๋ฅผ ์๋ก ๋ฃ์ด์ Entity๋ฅผ Markingํ๋ค. ์ฌ๊ธฐ์์ Entity Token์์ Classification์ ์งํํ๋ ๊ฒ ์ ์ผ ์ข๋ค๋ ๋ ผ๋ฌธ์ด ์์๋ค.
- ๋ฌธ์ฅ์ tag๋ง ๋ฃ๊ณ , ๊ทธ๊ฒ ๋ฌด์จ ๋จ์ด์ธ์ง ์์ ์ถ๊ฐ์ ์ผ๋ก ๋ช ์ํ ํ์๊ฐ ์๋์ง ๊ณ ๋ฏผ์. ์ ๋ ๋ ๋ ค๋ ๋ ๊ฒ ๊ฐ๋ค๊ณ ์๊ฐํฉ๋๋ค (์ค๋ณต๋ ์ ๋ณด์ด๊ธฐ ๋๋ฌธ์)
- Class ๋ณ๋ก ๋์ผ ๋น์จ๋ก ๋ฝ์์ ํ๋ฉด ์ข๋๋ผ๊ณ ์. (Stratified) ์์ ์ ๋ฝํ๋ ์ ๋ค๋ ์๊ธฐ ๋๋ฌธ์
- RoBERTa์์ token_type_id์ ์ ์ฐ์์์. Sentence A์ธ์ง B์ธ์ง. Separated Token์ ๋ณด๊ณ Autogenerate์ ํ๋๋ผ๊ณ ์. Embedding ๋จ์์ ์๋์ผ๋ก ์์ฑ์ ํด์ฃผ๋๋ผ๊ณ ์.
- ๋ถ์ ํด์ ํ ๊ฒ ๋ง์ ๊ฒ ๊ฐ์: Loss ์ ๊ฑด๋ฆ, K Fold์ ํ์,
ํ์
- Class weight์ ๋ฃ์์.
- ALBERT๋ ์ฑ๋ฅ์ด ์ ๋์ค์ง ์์.
- ๋จ์ด๋ฅผ Entity๋ฅผ ๋ฐ๋ก ๋นผ์ ๋ถ๋ฅํ๋ฉด ์ ํํ์ง ์์๊น ์๊ฐํ์. Token ์์น๋ฅผ ์ด๋ป๊ฒ ํ ์ ์๊ฐํ๋ค๊ฐ. Mask Index๋ฅผ ์ฐพ์ ์ ์์ด์. Mask๋ฅผ ์์์ ํ๋ฉด ์ข์ ๊ฒ ๊ฐ๋ค๋ ์๊ฐํ์ด์. Mask ์์น์ ์๋ ๋ฒกํฐ๋ฅผ ๋นผ์์ concatํ๋ ๋ฐฉ์์ผ๋ก ์๊ฐ์ ํ์.
- Loss์ weight์ ์ด๋ป๊ฒ ์ ์ฉํจ? Trainer ํจ์๋ overridingํด์ loss ๊ณ์ฐํ๋ ๊ฒ๋ง compute loss ํจ์์ loss function์ด ์ ๋ณด์ด๋๋ผ๊ณ ์. ์๋ง default๊ฐ cross entropy์ผ ๊ฑฐ๋ผ๊ณ ์๊ฐ์ ํฉ๋๋ค.
์ฑ์ฑ
- Max length๋ฅผ 128๋ก ์ง์ ํ์ ๋์ ์ ํ์ ๋์ ์ฐจ์ด ์กด์ฌ. 128 character length ์ด์์ธ ๋ฌธ์ฅ๋ค 460๊ฐ ์กด์ฌ. ํนํ Class ๋ณ distribution์ ๊ฐ์ํด๋, max length๋ฅผ ์ ๋ ๊ฒ ์ง์ ํด๋ ๋ฌธ์ ๊ฐ ๋์ง ์์์ ์ฆ๋ช ํ์.
์คํผ์ค์์์์ ์ธ๊ธ๋ ๊ฒ๋ค
- Entity Special Token ์ถ๊ฐ https://arxiv.org/abs/1906.03158
Q. ํ๊ธธ๋์ ํ๊ตญ์์ ํ์ด๋ฌ๋ค -> ํ๊ธธ๋์ ๋ณผ๋ฆฌ๋น์์์ ํ์ด๋ฌ๋ค ์ด๋ ๊ฒ ์ถ๊ฐํ๋ฉด ๋ฌธ์ ๊ฐ ๋ ๊น์? ๋ญ๊ฐ ๋์ ๊ด๊ณ๊ฐ ํ์ด๋๊ณณ์ ์์น์ธ๊ฒ๋ง ๋ง์ถ๋ฉด ๋ ๊ฒ ๊ฐ์๋ฐ ์ ๋ต๋จ์ด ์์ฒด์ ์๋ฏธ๊ฐ ์ค์ ํ ๊น์?
A,. ์ถ๊ฐ๋ก ๋ง์๋๋ฆฌ์๋ฉด, ๋ฐ์ดํฐ์ ์ ๊ฐ entity๋ง๋ค ๊ฐ์ฒด๋ช ํ ๊ทธ๊ฐ ๋ถ์ฐฉ๋์ด ์์๊ฑฐ์์ :-) ๊ฐ์ฒด๋ช ํ ๊ทธ๊ฐ ๊ฐ์ entity๋ก๋ ๊ต์ฒดํด๋ ์๋ฏธ์ ์ผ๋ก ํฐ ๋ฌธ์ ๊ฐ ์๊ธฐ์ง ์์๊ฒ๋๋ค. ์ ๋ผ๋ฉด ๋ชจ๋ ๋ฐ์ดํฐ๋ฅผ ๋์์ผ๋ก ๊ฐ ๊ฐ์ฒด๋ณ ์ฌ์ ์ ๋ง๋ค์ด๋๊ณ random replace๋ฅผ ํ ํ์ ๊ด์ฐฐํด๋ณผ๊ฑฐ๊ฐ์์
-
Bidirectional LSTM ์ถ๊ฐ
-
Pretraining model with arbitrary masking
-
Round Trip translation -> Back Translation์ ํ๊ฒ ๋๋ฉด entity ์์น๊ฐ ๋ณ๊ฒฝ๋๊ฑฐ๋ ์์ด์ง ์๋ ์๋๋ฐ ์ด๊ฒ์ ์ด๋ป๊ฒ ํด๊ฒฐํ ์ ์์๊น์? Entity์๋ค๊ฐ ๊ดํธ๋ฅผ ์ณ์ ๋ฃ์ผ๋ฉด ๋์ง ์์๊น๋ผ๋ ์๊ฐ์ด ๋ญ๋๋ค. -> ENTITY ๋์ ๊ณ ์ ๋ช ์ฌ๋ฅผ ๋ฃ์ด์ ๋ฒ์ญํ๊ณ ๋ค์ entity๋ก ๋์ฒดํ๋ ๋ฐฉ๋ฒ์ ์ด๋ค๊ฐ์
-
EDA, AEDA
-
CLS, SEP ๋ฃ์ด์ format ๋ง์ถ๊ธฐ
์คํผ์ค์์ Q&A
- RE task ์์ ํน์ start_index ์ end_index ๊ฐ ์ด๋์ ๋์์ด ๋ ์ ์์๊น์? -> ๊ฑ ๋ฌด์ํ์ . ๋ ธ์ธ๋ชจ
- ๋ฌธ์ฅ์ ์๋ฏธ๊ฐ ํฌ๊ฒ ๋ฐ๋์ง ์๋๋ค๋ฉด subject, object ์์น ๋ฐ๋์ด๋ ์๊ด ์์.
- ORG:์ ์น/์ข ๊ต ๋ผ๋ฒจ์์ mislabel์ด ๋๋๋ฌ์ง๋ ๊ฒ ๊ฐ์ต๋๋ค
- train์ unknown ํ ํฐ์ด ์๋ ๊ฒ regularization ๊ธฐ๋ฅ์ ํ ์ ์์์ง ๊ถ๊ธํฉ๋๋ค! ๋ entity์ unknown ํ ํฐ์ด ์์ ๋๋ ์ด๋ค ์ํฅ์ด ์์์ง ๊ถ๊ธํฉ๋๋ค. -> ์ผ์ข ์ ๊ทธ๋ฐ ์ญํ ์ ํ ์ ์๋ค๊ณ ๋ณผ ์ ์์ ๊ฒ ๊ฐ๊ณ ์. -์ต๊ทผ์ ๊ฐ์ฒด๋ช ์ธ์๊ธฐ๋ก ๋ ผ๋ฌธ์ ์ผ๋๋ฐ, bert๋ฅ ๋ชจ๋ธ๋ค์ด (๋๋๊ฒ๋) [unk] ๋ ๋ฌด๊ดํ๊ฒ ์ ์ก๋๋ผ๊ตฌ์ -> [unk]๋ 2012๋ ์ ํ์ด๋ฌ๋ค -> [unk]:PS ๋ก ์ก๋๋ผ๊ตฌ์ :-)
- sentence ์ ๊ธธ์ด๋ฅผ ํ์ ํ ๋๋ tokenization ํ๊ธฐ ์ ์ ๊ธธ์ด๋ฅผ ๋ณด๋๊ฒ ๋ง๋์? -> Tokenizing ํ ๋ค์์ ๊ฒฐ๊ณผ๋ฅผ ๋ณด๋ ๊ฒ ๋ง์ง ์๋ ์ถ์ต๋๋ค.
- TAPT(PPT ๋ณธ๋ฌธ์ Domain Apaptation) ๋๋ฆด ๋๋ ์๋ฌด๋๋ ๋ชจ๋ํฐ๋งํ ๋งคํธ๋ฆญ์ด ์๋๋ฐ, ๋ณดํต loss๊ฐ ์ด๋ ์์ค์ผ๋ก ๋จ์ด์ง ๋๊น์ง ๋๋ฆฌ๋์ง ๊ถ๊ธํฉ๋๋ค!
- fine-tuning์์ warm-up ์ฐ๋๊ฒ ๋ง๋์? -> ์ ์ฐ๋ ๊ฑธ ์ถ์ฒํ๋ค.
- ๋ถ์ฉ์ด๋ฅผ ๋ฐ๋ก ์ฒ๋ฆฌํ๋ ๊ฒ๋ ๋ชจ๋ธ ํ์ต์ ๋์์ด ๋ ๊น์? ํ์ต์ ๋ฐฉํด๊ฐ ๋ ์๋ ์์ ๊ฒ ๊ฐ์์ ์ง๋ฌธ๋๋ฆฝ๋๋ค! -> Validation์ ๋ด
- ํ ์คํธ ๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ ๋ ๋ถ์ฉ์ด๋ฅผ ๊ฐ์ด ์ ๊ฑฐํ๋ ๋ฐฉ์์ ํ๋ฉด ์๋๋๊ฑธ๊น์? -> ๋ค ํ ์คํธ์ ์ ์ ์ฒ๋ฆฌํด์ ๋ชจ๋ธ์ด ์ธํผ ๋ฃ๋๊ฑด ๋งค์ฐ ์์ฐ์ค๋ฌ์ด๊ฑฐ๊ฐ๊ตฌ์. ์๋ฅผ๋ค์ด์ ์ ์ฑ๋๊ธ ๋ถ๋ฅํ ๋๋ 'ใ ใ ใ ใ ใ ใ ใ ' ์ด๋ 'ใ ใ ใ ใ ใ ใ ' ๊ฐ์๊ฒ๋ ์ ๋ถ normalizationํ ํ์ ๋ชจ๋ธ์ ํ์ฐ๊ฑฐ๋ ์