(pytorch) data class - beyondnlp/nlp GitHub Wiki

Dataset class를 상속 ( nsmc data )
- len과 getitem을 구현한다.
- len은 전체 문서수
- getitem은 slice연산을 지원하기 위한 용도이다.
nsmc sample

#id     document        label
9976970 아 더빙.. 진짜 짜증나네요 목소리        0
3819312 흠...포스터보고 초딩영화줄....오버연기조차 가볍지 않구나        1
10265843        너무재밓었다그래서보는것을추천한다      0
9045019 교도소 이야기구먼 ..솔직히 재미는 없다..평점 조정       0
6483659 사이몬페그의 익살스런 연기가 돋보였던 영화!스파이더맨에서 늙어보이기만 했던 커스틴 던스트가 너무나도 이뻐보였다 1
5403919 막 걸음마 뗀 3세부터 초등학교 1학년생인 8살용영화.ㅋㅋㅋ...별반개도 아까움.     0
7797314 원작의 긴장감을 제대로 살려내지못했다.  0
9443947 별 반개도 아깝다 욕나온다 이응경 길용우 연기생활이몇년인지..정말 발로해도 그것보단 낫겟다 납치.감금만반복반복..이드라마는 가족도없다 연기못하는사람만모엿네     0
7156791 액션이 없는데도 재미 있는 몇안되는 영화 1

Dataset class 상속

class MovieDataSet(torch.utils.data.Dataset):

vocab : 키워드를 저장할 dict 변수
infile : 학습,테스트에 사용할 파일명

    def __init__(self, vocab, infile):
        self.vocab = vocab
        self.labels = []
        self.sentences = []

        line_cnt = 0
        with open(infile, "r") as f:
            for line in f:
                line_cnt += 1

        with open(infile, "r") as f:
            for line in f.readlines():
                if line[0] == '#' : continue
                line = line.rstrip()
                term=line.split("\t");
                ids = vocab.encode_as_ids(term[1])
                label=[int(term[2])]

                self.sentences.append( ids )
                self.labels.append( label  )

len : 전체 건수를 가져오기 위한 함수

    def __len__(self):
        assert len(self.labels) == len(self.sentences)
        return len(self.labels)

getitem_ : slice연산을 지원하기 위한 함수
"[" "]"를 구현

    def __getitem__(self, item):
        label = torch.tensor( self.labels[item]    )
        sent  = torch.tensor( self.sentences[item] )
        return ( label, sent )

batch 단위로 데이터를 꺼내오기 위한 함수

def movie_collate_fn(inputs):
    labels, enc_inputs, dec_inputs = list(zip(*inputs))

    enc_inputs = torch.nn.utils.rnn.pad_sequence(enc_inputs, batch_first=True, padding_value=0)
    dec_inputs = torch.nn.utils.rnn.pad_sequence(dec_inputs, batch_first=True, padding_value=0)

    batch = [
        torch.stack(labels, dim=0),
        enc_inputs,
        dec_inputs,
    ]
    return batch

개체선언

train_dataset = MovieDataSet( vocab, train_file )
test_dataset  = MovieDataSet( vocab, test_file )

Dataloader에 결합

train_loader  = \
torch.utils.data.DataLoader(train_dataset, batch_size=batch_size, shuffle=True, collate_fn=movie_collate_fn)

test_loader   = \
torch.utils.data.DataLoader(test_dataset, batch_size=batch_size, shuffle=False, collate_fn=movie_collate_fn)

사용 ( train_loader )

def train_epoch(config, epoch, model, criterion, optimizer, train_loader):

    for i, value in enumerate(train_loader):