MRC 3강 - KR-HappyFace/meetup-logs GitHub Wiki

본인이 생각하는 핵심부문을 요약하기
의문점, 궁금했던 점도 적기
쓸만한 실습코드 있으면 여기다가 붙여넣기

영진

Improved Baseline은 Embedding Layer을 resize하지 않아도 되는 간편함이 있다.

~~~~

재영

-Generation-based MRC : 지문정보을 가지고 질문에 맞는 적절한 답을 생성해내는 테스크, ber가 아닌 bart같은 생성모델이 필요하다.bert는 bidirection한 인코더로만 이루어져있고 gpt는 unideidrection한 디코더로 이루어져 있는 반면 bart는 bidirection한 인코더와 unidirection한 디코더로 이루어져있어 문제를 이해하고 문제에 대한 적절한 답을 생성해내는 테스크에 적절한 모델이다. 모델자체나 테스크는 Extraction-based mrc보다 더 어렵지만 데이터셋은 그저 입력을 가지고 이후의 출력을 생성해내면 되기때문에 더 쉽게 만들 수 있다. 이때 가장 좊은 확률을 보이는 값을 찾기위해 greedy한 생성보다 k개의 높은 확률을 가지는 값들을 저장하는 beam서치를 통해서 생성한다.

준홍

Generation-based MRC

Generation-based MRC -> EM 방식의 score로는 평가하기가 힘들다 -> 새로운 score 사용 필요
대표적인 모델로 BART가 있으며 기존 BERT나 GPT와 달리 Seq2seq model임.
noise가 들어간 seq가 들어가 문장을 생성하는 방식으로 학습.

연주

현수

Generation Based MRC
- 주어진 지문과 질문을 보고, 답변을 생성 (NLG)
- 생성이 요구되기 때문에 Seq2seq 구조
- 평가방법: EM (same as Extraction based), ROUGE-L, BLEU
- Models: BART

세현

성욱

	Extraction-based MRC	Generation-based MRC
접근	지문 내에 존재하는 정답의 Start point/End point를 파악	질문에 대한 정답 생성
평가 방법	EM(Exact Match), F1 score	ROUGE-L, BLEU (Extraction-based MRC와 같은 평가 방법을 사용할 수 있지만 일반적인 생성 문제에 비슷하게 접근하기 위해 ROUGE-L, BLEU를 사용하기도 한다.)
정답 생성	모델 output을 Score로 바꾸고 이를 Start/End point로 변환하는 작업 추가	모델에서 바로 정답 추출
모델 구조	Encoder + Classifier	Seq2seq(Encoder-Decoder)
Prediction	지문 내 답이 위치	Free-form text
Loss	위치에 대한 확률 분포를 Negative Log Likelihood로 계산하여 접근	실제 text를 decoding할 때, teacher forcing과 같은 방식으로 학습
Special Token	[CLS], [SEP], [PAD] 등	정해진 텍스트 포맷으로 생성하여 사용한다, (e.g. question, context)
token_type_ids	BERT를 주로 사용하며, token_type_ids 존재	BART를 주로 사용하며, token_type_ids가 존재하지 않는다.
post-preprocessing	score 순으로 top-k -> 불가능한 조합 삭제 -> score가 가장 높은 조합 예측	Beam Search