Transformer based Encoder Decoder - sogang-nlp-paper/WNGT-2019-DGT-NLG-Track GitHub Wiki

Pre-trained Language Representation (BERT, XLNet)

BERT, XLNet 같은 pretrained language representation 모델을 어떻게 적용 할 수 있을지.

DGT task는 input이 natural language가 아니라서 encoder에서 쓰기 어려움
Decoder에서 pretrained word embedding을 쓸 수 있을 것 같다
autoregressive 모델인 XLnet을 사용하는 것이 더 나아보임(Transformer-XL based)

Transformer based Enocoder-Decoder

문제점: Rotowire 데이터에서 하나의 게임 당 대략 600개의 record로 가정하면, content selection 같은 별도의 전처리(?), 필터링(?) 과정을 거치지 않으면 input이 너무 많음

이전 모델에서의 해결 방법: attention, copying mechanism, pointer network, gate 같은 테크닉을 적용하여 문제점을 보완하고자 함

Why transformer?

rotowire summary는 어느 정도의 형식(template)이 있음 (경기 결과, 선수들 스탯 등..)
multi-head attention을 통해 template(?)을 학습하는 효과를 기대..ㅎ

Summary가 평균 8~10문장으로 이루어져 있고, 각 문장에서 집중하는 파트가 다르다. Multi-head attention에서 각 head가 다른 부분에 attention할 것으로 기대. (Encoder에서 positional encoding이 필요없을 듯)

(논의) input이 (N, 600, d)가 되는데, record filtering이 필요한가? 대부분의 record는 안씀 (특히 선수 stat)

Transformer vs Transformer XL

fixed-length context의 long-term dependency 문제를 보완(segment-level recurrence with state reuse)
relative positional encoding

논의사항

data preprocessing(table->triplet): module화 해서 같이 쓰면 좋을 것 같다.
(질문) [Wiseman et al, 2017]에서 copying mechanism에서 {e_j}에 대해 따로 vocab dictionary가 있는지. {e_j<->entity}같은 것이 필요한게 아닌가