MRC 1강 - KR-HappyFace/meetup-logs GitHub Wiki

  • 본인이 생각하는 핵심부문을 요약하기
  • 의문점, 궁금했던 점도 적기
  • 쓸만한 실습코드 있으면 여기다가 붙여넣기

영진

Improved Baseline은 Embedding Layer을 resize하지 않아도 되는 간편함이 있다.

~~~~

재영

  • mrc 질문을 이해하고 지문에서 그에 맞는 답을 하는 테스크,
  • mrc의 종류
  • Extractive AnswerDatasets : 문제에 정답이 들어있다. 그래서 지문에서 적절한 답을 가져오는 테스크,, classification!
  • Descriptive/NarrativeAnswerDatasets: 지문속에 답이 있지 않고 적절한 답을 생성해내야하는 테스크,당연히 더 어렵다. generate!
  • 비슷한 의미의 단어들을 이해하는 것이 필요하다. 특히 고유명사와 이를 지칭하는 대명사 간의 관계를 추출해내는 것이 중요하다. 여러 문서에 걸쳐 정답을 찾아내야 할 수도 있으며 논리적인 추론과정이 필요할 수도 있다. --> 높은 수준의 이해능력이 필요하다.

준홍

  • MRC의 종류가 어려가지가 있으며 지문 내에서 추출, 질의를 보고 생성하는 generative 한것, 객관식 형태가 있다.
  • MRC에서 어려운 것들이 있는데, paragraph 된 문장들이나 대명사들, Unanswerable question등등 있음.
  • 또한 여러 문장을 참고해야만 답을 찾을 수 있는 질문들도 존재함.
  • MRC에서는 huggingface의 datasets 라이브러리가 중요해보인다.
# 1강 실습코드
# https://drive.google.com/file/d/1h_kRXyuc0w4rHD7LCCbVBB26Savy5yy1/view
tokenized_examples = tokenizer(
        examples["question"],
        examples["context"],
        truncation="only_second",  # Truncate to max_length. This will only truncate the second sequence of a pair.
        max_length=max_seq_length,
        stride=doc_stride,
        return_overflowing_tokens=True, # Whether or not to return overflowing token sequences.
        return_offsets_mapping=True,  # Whether or not to return (char_start, char_end) for each token.
        padding="max_length",
    )
  • 위 코드의 parameter들이 정확히 어떻게 작용하는지 이해하기가 조금 어려움 -> 공부가 필요할듯

연주

MRC 종류

  • Extractive Answer Datasets : 질의에 대한 답이 항상 주어진 지문의 segment(span)으로 존재 (SQuAD, KorQuAD 등)
  • Descriptive/Narrative Answer Datasets : 답이 지문 내에서 추출된 span이 아닌 질의를 보고 생성된 sentence(free-form)의 형태
  • Multiple-choice Datasets : choice를 주고 정답 고르는 형태

평가방법

  • Exact Match / F1 score : extractive answer + multiple-choice
  • ROUGE-L / BLEU : descriptive anwer. n-gram으로 비율 계산

현수

  • Types of MRC datasets:

    • Extractive: 지문 속에 존재하는 질문에 대한 답 추출
    • Descriptive/Narrative: 지문 속에 존재하지 않을 수도 있는 답을 생성
    • Multiple-choice : 질문에 대한 답을 보기 중 선택
  • Metrics

    • EM & F1
      • EM (Exact Match): 예측한 답과 Ground-truth이 정확히 일치하는 샘플의 비율
      • F1: 예측한 답과 Ground truth 사이 token overlap을 f1으로 계산
    • 이번 대회에서는 EM을 중점으로 평가
  • Challenges:

    • Unanswerable questions (questions without answers)
    • Multi-hop reasoning
    • Paraphrasing

세현

성욱

  • MRC : 지문을 이해하고 주어진 질의의 답변을 추론 / 질문이 들어오면 Search Engine을 통해 지문을 찾고 지문 내에서 정답을 찾는 방식
  • What makes MRC difficult?
    • Paraphrased : 같은 의미의 문장이지만 다른 단어들로 구성될 경우 기계가 다른 단어를 같은 의미로 받아들이기 쉽지 않다.
    • Coreference Resolution : 대명사를 지칭하고 있는지 명확히 알 수 없어 기계가 문장을 제대로 이해하기 어렵다. -> 대명사가 지칭하고 있는 것을 찾아내는 task를 진행함으로서 MRC를 조금 더 원활히 진행할 수 있다.