MRC 7강 - KR-HappyFace/meetup-logs GitHub Wiki
- 본인이 생각하는 핵심부문을 요약하기
- 의문점, 궁금했던 점도 적기
- 쓸만한 실습코드 있으면 여기다가 붙여넣기
영진
Improved Baseline은 Embedding Layer을 resize하지 않아도 되는 간편함이 있다.
~~~~
재영
-mrc 테스크 결국 open domain question answering은 4-6강에서 배운 retrieval과 1-3강에서 배운 read 단계로 구성된다. 두 개의 모델(사실 retrieval단계에서 두개의 모델을 사용하기도함)을 각각 학습해야한다. retriever의 학습은 한 쌍의 context와 query간의 내적이 최대가 되게 학습을 하며 이때 네거티브 샘플링을 사용하기도 한다. 샘플을 어뗗게 하느냐에 따라 성능이 달라지기도 한다. random하게 여러 쌍을 구할 수도 있고 높은 bm25 유사도를 가지는 문맥을 네거티브 샘플로 사용해 더 어려운 문제로 만들면서 학습을 할 수도 있다. 이때 가장 높은 값을 가지는 단락 하나만 출력하는 것이 아니라 하이퍼 파라미터로 k개의 단락을 추출해서 이들을 가지고 사용을 하면 더 높은 성능을 기대할 수 있다.
준홍
연주
현수
Improved Baseline은 Embedding Layer을 건드리지 않기 때문에, 기존에 있는 hidden features를 그대로 사용함으로서, initiialized된 special token을 활용하지 않는 장점이 있다.
세현
성욱
학습데이터를 추가하기 위한 Distance Supervision을 활용한다.
- Distant Supervision
- 질문-답변만 있는 데이터셋(CurratedTREC, WebQuestions, WikiMovies)에서 MRC 학습 데이터 만들기. Supporting Document가 필요하다.
- 위키피디아에서 Retriever를 이용해 관련성 높은 문서를 검색
- 너무 짧거나 긴 문서, 질문의 고유명사를 포함하지 않은 부적합한 문서는 제거한다.
- answer가 extract match로 들어있지 않은 문서는 제거한다.
- 남은 문서 중 질문과(사용 단어 기준) 연관성이 가장 높은 단락을 supporting evidence로 사용한다.
- Retriever to Reader에서 넘겨주는 top-k개의 문서의 개수 k를 정할 때 이를 hyperparameter로서 잘 tuning해야 한다.
- K를 늘리면 늘릴수록 성능이 올라가는 경우가 있지만 항상 그런 것은 아니다.
- top-k passage들의 score까지 함께 Reader로 넘겨준 후 이를 함께 Reader에서 학습시킨다. 이 경우 대게 성능이 더 높게 나온다고 한다.
- 궁금한 점
- single passage/multi passage training