MRC 4강 - KR-HappyFace/meetup-logs GitHub Wiki

  • 본인이 생각하는 핵심부문을 요약하기
  • 의문점, 궁금했던 점도 적기
  • 쓸만한 실습코드 있으면 여기다가 붙여넣기

영진

Improved Baseline은 Embedding Layer을 resize하지 않아도 되는 간편함이 있다.

~~~~

재영

  • passage retrieval은 문서에 대한 벡터를 구하고 query에 대한 벡터를 구해 이들의 유사도를 구해서 query에 맞는 passege를 찾는다. 이때 passage에 대한 벡터는 그떄그때마다 구하는 것이 아니라 모든 문서에 대한 벡터를 미리 구해 저장해놓고 query가 주어질때마다 query의 벡터로 구해 이와 가장 비슷한 벡터를 가지는 문서를 찾는다.
  • sparse embedding(희소행렬 임베딩) 대부분의 값이 0이다. 가장 대표적인 방법은 bag of word로 비슷한 단어가 많이 등장한 문서끼리 높은 유사도를 가진다. 이떄 unigram뿐아니라 n-gram을 적용해서 한다. (n이 커질수록 차원수가 엄청나게 커진다. -TF-IDF방식 bag of word에선 'the','a','가' 같은 단어가 매우 많이 등장할 것이고 많지 않은 정보를 가지고 있다. 그래서 tf-idf에서는 해당 문서에만 많이 등장하는 단어는 문서에서 많은 의미를 가진다는 가정을 가지고 이를 가중치로 해서 벡터를 구한다. tf는 문서 내에서의 단어의 등장빈도이고 idf는 모든 문서에 대해 단어가 얼마나 많이 등장했는지를 의미한다. idf가 높으면 거의 대부분의 문서에 단어가 들어있다는 것이고 이는 이단어가 가지는 정보가 적다는 것을 의미한다. 반면 장 등장하지 않는 단어에 대해서는 높은 idf 점수를 가진다. tf와 idf를 곱한 값이 tf-idf스코어이다. 그래서 단어가 가지는 정보의 양을 가중치로 해서 단어의 빈도를 측정해서 bag of word보다 더 좋은 성능을 가진다.
  • bm25 이때 문서의 길이가 길다면 더 많은 단어가 등장할 것이고 그렇기 떄문에 단어들의 tf스코어가 높아질 것이다. bm25는 문서의 길이까지 고려해서 임베딩을 하는 방법이다.

준홍

  • passage retrieval -> 질문의 답이 어느 문서에 있는가? 를 찾기위한 과정. Passage embedding을 사용해 구한다
  • Sparse embedding
    • BoW (Bag of Words): 단어마다 존재하냐? 안하냐? 이것만 구분해준 벡터
    • TF-IDF: TF->단어의 등장 빈도수 IDF-> 단어가 제공하는 정보량 ----> 이둘을 곱해서 사용하는 벡터

연주

현수

  • Passage Retrieval
    • 질문에 맞는 문서를 찾는 과정
    • Open Domain QA = Passage Retrieval + MRC
  • Passage Embedding:
    • Sparse Embedding: BoW, Term value 등을 이용.
    • Term overlap을 정확하게 잡아 내야 할 때 유용
    • Semantic 의미가 비슷하지만 다른 단어인 경우 비교 불가
  • TF-IDF (Term Frequency - Inverse Document Frequency):
    • 단어 등장 빈도 x 단어가 제공하는 정보의 양
  • BM25
    • TF-IDF + 문서 길이까지 고려해서 점수 계산
    • 실제 검색 엔진, 추천 시스템 등에서 아직까지 많이 사용되는 알고리즘

세현

성욱

  • Sparse Embedding -> TF-IDF 활용
  • Sparse Embedding 특징
    • vector의 차원 = vocab_size
    • vocab이 커질수록 vector dim 커짐
    • n-gram term 활용할 때, n이 커지면 기하급수적으로 차원 증가
  • 장점
    • 검색에 활용할 단어가 실제 문서에 들어가 있는지 없는지 볼 때 유용
  • 단점
    • 의미(semantic)가 비슷하지만 다른 단어인 경우 비교가 불가능하다.
  • TF의 다양한 방법론
    • Adjusted for doc length(TF)
    • binary
    • log normalization 등의 방식 존재
  • BM25
    • Heuristic하게 TF-IDF를 변경하여 사용해보기