Rotowire details - sogang-nlp-paper/WNGT-2019-DGT-NLG-Track GitHub Wiki

Download

RotoWire data link
- OpenNMT에 맞게 formatting된 data gdrive link
Tokenizer link
- Rotowire dataset 만들 때 사용된 tokenizer

Size

rotowire size

Vocab

* tgt vocab size: 9989.
* src vocab size: 1165.
* src_feat_0 vocab size: 705.
* src_feat_1 vocab size: 39.
* src_feat_2 vocab size: 4.
* merged vocab size: 10147.

Peek

src는 602개의 record로 이루어져 있고 각 record는 4개의 항목을 갖는데 형식은 아래와 같음. 구분자(￨: U+FFE8)는 |(pipe)랑 다름에 유의.
Wiseman et al., 2017 notation에 따르면 r.e: Carmelo_Anthony, r.t: START_POSITION, r.m: F, 'home-away' indicator: HOME.
OpenNMT에 따르면 src_feat_0: Carmelo_Anthony, src_feat_1: START POSITION, src_feat_2: HOME.

F￨Carmelo_Anthony￨START_POSITION￨HOME

gdrive link를 통해 받은 데이터는 한 경기당 602개(572 + 30)의 records로 이루어져있음.

602개의 records의 순서는 큰 단위로 볼 때 HOME 선수 13명의 기록 - AWAY 선수 13명의 기록 - HOME 팀 기록 - AWAY 팀 기록
하나의 선수는 22개의 record을 가지며, 각 팀당 13명의 선수가 있음
- raw data엔 선수당 24개의 record이 있지만 이중에 'PLAYER_NAME'과 'TEAM_CITY'가 빠져있음
- 'PLAYER_NAME'은 'FIRST_NAME', 'LAST_NAME'에 담겨있어서 괜춘
- 'TEAM_CITY'는 각 record마다 home / away indicator가 있어서 괜춘하긴한데, home team이름이 뭔지 알 수 있나??
하나의 팀은 15개의 record를 가짐
13명* 2팀* 22개 = 572
2팀 * 15개 = 30

EDA

간단한 EDA notebook link, jupyter notebook on server(비번:안휘진)