Transformer based Encoder Decoder - sogang-nlp-paper/WNGT-2019-DGT-NLG-Track GitHub Wiki
Pre-trained Language Representation (BERT, XLNet)
BERT, XLNet ๊ฐ์ pretrained language representation ๋ชจ๋ธ์ ์ด๋ป๊ฒ ์ ์ฉ ํ ์ ์์์ง.
- DGT task๋ input์ด natural language๊ฐ ์๋๋ผ์ encoder์์ ์ฐ๊ธฐ ์ด๋ ค์
- Decoder์์ pretrained word embedding์ ์ธ ์ ์์ ๊ฒ ๊ฐ๋ค
- autoregressive ๋ชจ๋ธ์ธ XLnet์ ์ฌ์ฉํ๋ ๊ฒ์ด ๋ ๋์๋ณด์(Transformer-XL based)
Transformer based Enocoder-Decoder
๋ฌธ์ ์ : Rotowire ๋ฐ์ดํฐ์์ ํ๋์ ๊ฒ์ ๋น ๋๋ต 600๊ฐ์ record๋ก ๊ฐ์ ํ๋ฉด, content selection ๊ฐ์ ๋ณ๋์ ์ ์ฒ๋ฆฌ(?), ํํฐ๋ง(?) ๊ณผ์ ์ ๊ฑฐ์น์ง ์์ผ๋ฉด input์ด ๋๋ฌด ๋ง์
์ด์ ๋ชจ๋ธ์์์ ํด๊ฒฐ ๋ฐฉ๋ฒ: attention, copying mechanism, pointer network, gate ๊ฐ์ ํ ํฌ๋์ ์ ์ฉํ์ฌ ๋ฌธ์ ์ ์ ๋ณด์ํ๊ณ ์ ํจ
Why transformer?
- rotowire summary๋ ์ด๋ ์ ๋์ ํ์(template)์ด ์์ (๊ฒฝ๊ธฐ ๊ฒฐ๊ณผ, ์ ์๋ค ์คํฏ ๋ฑ..)
- multi-head attention์ ํตํด template(?)์ ํ์ตํ๋ ํจ๊ณผ๋ฅผ ๊ธฐ๋..ใ
Summary๊ฐ ํ๊ท 8~10๋ฌธ์ฅ์ผ๋ก ์ด๋ฃจ์ด์ ธ ์๊ณ , ๊ฐ ๋ฌธ์ฅ์์ ์ง์คํ๋ ํํธ๊ฐ ๋ค๋ฅด๋ค. Multi-head attention์์ ๊ฐ head๊ฐ ๋ค๋ฅธ ๋ถ๋ถ์ attentionํ ๊ฒ์ผ๋ก ๊ธฐ๋. (Encoder์์ positional encoding์ด ํ์์์ ๋ฏ)
- (๋ ผ์) input์ด (N, 600, d)๊ฐ ๋๋๋ฐ, record filtering์ด ํ์ํ๊ฐ? ๋๋ถ๋ถ์ record๋ ์์ (ํนํ ์ ์ stat)
Transformer vs Transformer XL
- fixed-length context์ long-term dependency ๋ฌธ์ ๋ฅผ ๋ณด์(segment-level recurrence with state reuse)
- relative positional encoding
๋ ผ์์ฌํญ
- data preprocessing(table->triplet): moduleํ ํด์ ๊ฐ์ด ์ฐ๋ฉด ์ข์ ๊ฒ ๊ฐ๋ค.
- (์ง๋ฌธ) [Wiseman et al, 2017]์์ copying mechanism์์ {e_j}์ ๋ํด ๋ฐ๋ก vocab dictionary๊ฐ ์๋์ง. {e_j<->entity}๊ฐ์ ๊ฒ์ด ํ์ํ๊ฒ ์๋๊ฐ