Rotowire details - sogang-nlp-paper/WNGT-2019-DGT-NLG-Track GitHub Wiki
Download
- RotoWire data link
- OpenNMT에 맞게 formatting된 data gdrive link
- Tokenizer link
- Rotowire dataset 만들 때 사용된 tokenizer
Size
Vocab
* tgt vocab size: 9989.
* src vocab size: 1165.
* src_feat_0 vocab size: 705.
* src_feat_1 vocab size: 39.
* src_feat_2 vocab size: 4.
* merged vocab size: 10147.
Peek
src는 602개의 record로 이루어져 있고 각 record는 4개의 항목을 갖는데 형식은 아래와 같음. 구분자(│: U+FFE8)는 |(pipe)랑 다름에 유의.
Wiseman et al., 2017 notation에 따르면 r.e
: Carmelo_Anthony, r.t
: START_POSITION, r.m
: F, 'home-away' indicator
: HOME.
OpenNMT에 따르면 src_feat_0
: Carmelo_Anthony, src_feat_1
: START POSITION, src_feat_2
: HOME.
F│Carmelo_Anthony│START_POSITION│HOME
gdrive link를 통해 받은 데이터는 한 경기당 602개(572 + 30)의 records로 이루어져있음.
- 602개의 records의 순서는 큰 단위로 볼 때
HOME 선수 13명의 기록
-AWAY 선수 13명의 기록
-HOME 팀 기록
-AWAY 팀 기록
- 하나의 선수는 22개의 record을 가지며, 각 팀당 13명의 선수가 있음
- raw data엔 선수당 24개의 record이 있지만 이중에 'PLAYER_NAME'과 'TEAM_CITY'가 빠져있음
- 'PLAYER_NAME'은 'FIRST_NAME', 'LAST_NAME'에 담겨있어서 괜춘
- 'TEAM_CITY'는 각 record마다 home / away indicator가 있어서 괜춘하긴한데, home team이름이 뭔지 알 수 있나??
- 하나의 팀은 15개의 record를 가짐
- 13명* 2팀* 22개 = 572
- 2팀 * 15개 = 30