Week16 Day5 - ai-esg/our-history GitHub Wiki

νŒ€ NLP 11μ‘° Week16 Day5

λͺ©μ°¨

일자

  • 2021.11.19 금

νŒ€μ›

  • 문석암_T2075
  • λ°•λ§ˆλ£¨μ°¬_T2078
  • λ°•μ•„λ©˜_T2090
  • μš°μ›μ§„_T2137
  • μœ€μ˜ν›ˆ_T2142
  • μž₯동건_T2185
  • ν™ν˜„μŠΉ_T2250

μ£Όκ°„ 일정

ν”Όμ–΄μ„Έμ…˜

μ΅œμ’… ν”„λ‘œμ νŠΈ

μ‚¬μš© μ‹œλ‚˜λ¦¬μ˜€

  • μž…λ ₯ λ¬Έμž₯

데이터

  1. 리슀트 뽑기 by tour API (μ •λ‹΅)

    • μ—¬κΈ° λ¬Έμž₯도 μ‚¬μš©κ°€λŠ₯ν•˜λ©΄ μ‚¬μš©ν•˜κΈ°
  2. 데이터 κ°€μ Έμ˜€κΈ° (λ¬Έμž₯)

    • google API
    • 넀이버 : 크둀링
    • μΈμŠ€νƒ€ : 크둀링 방법 μ•Œμ•„λ‚΄μž

νŒ€νšŒκ³ 

νŒ€ 평가

  • 문석암
    • λ°μ΄ν„°μ˜ 귀쀑함? λ°μ΄ν„°μ˜ μ†Œμ€‘ν•¨μ„ 닀같이 λŠκΌˆμ„κ±°λΌ μƒκ°ν•©λ‹ˆλ‹€. κ·Έλž˜λ„ 닀같이 μ—΄μ‹¬νžˆ ν•΄μ£Όμ…”μ„œ 잘 μ§„ν–‰ν•  수 있던거 κ°™μŠ΅λ‹ˆλ‹€.
  • λ°•λ§ˆλ£¨μ°¬
    • 닀같이 방법을 μ •ν•˜κ³  λ…Έκ°€λ‹€λ₯Ό ν•¨κ»˜ ν–ˆλŠ”λ°, μž¬λ°Œμ—ˆλ‹€. 같이 ν•˜λŠ” λŠλ‚Œμ΄ 많이 λ‚¬μŒ.
  • λ°•μ•„λ©˜
    • 이번 ν•œ μ£Ό ν˜Ήμ‚¬λ‹Ήν•œ νŒ€μ›λ“€μ΄ λ„ˆλ¬΄ κ³ μƒν–ˆλ‹€. 특히 μƒˆλ²½μ—λ„ μΌν•œ νŠΉμ • νŒ€μ›λ“€μ—κ²Œ 감사함을 ν‘œν•œλ‹€.
  • μš°μ›μ§„
    • μ›μ‹œ 데이터λ₯Ό λ§Œλ“œλŠ”λ° μ›μ‹œμΈμ²˜λŸΌ 일을 ν•˜λ©΄μ„œ νž˜λ“¦μ„ μ•Œκ²Œ 된 것 κ°™μŠ΅λ‹ˆλ‹€. 정말 적지 μ•Šμ€ 데이터λ₯Ό ν•œλ‹€κ³  κ³ μƒν•œ νŒ€μ›λ“€μ΄ λŒ€λ‹¨ν•˜λ‹€κ³  λŠκΌˆμŠ΅λ‹ˆλ‹€.
  • μœ€μ˜ν›ˆ
    • μ›μ‹œ λ°μ΄ν„°μ—μ„œλΆ€ν„° μ‹œμž‘ν•˜μ—¬ λ¬Έμž₯ filteringν•΄μ£Όκ³ , entity νƒœκΉ…, relation νƒœκΉ…κΉŒμ§€ λ‹€λ“€ λ„ˆλ¬΄ κ³ μƒν•˜μ‹  것 κ°™λ‹€. 반볡 μž‘μ—…μΈ 데이터 μ œμž‘μ€ λ„ˆλ¬΄ νž˜λ“€μ—ˆλ˜ 것 κ°™λ‹€.
  • μž₯동건
    • 이전 ν”„λ‘œμ νŠΈμ™€ 성격이 많이 달라 μ μ‘ν•˜κΈ°κ°€ μ–΄λ €μ› μŠ΅λ‹ˆλ‹€. 데이터λ₯Ό λ§Œλ“œλŠ” 과정이 제 생각보닀 생각해야 ν•  것이 많고 μ‹œκ°„κ³Ό 노동이 많이 ν•„μš”ν•˜λ‹€λŠ” 것을 λŠκΌˆμŠ΅λ‹ˆλ‹€.
  • ν™ν˜„μŠΉ
    • λ…Έκ°€λ‹€μ˜ μ†Œμ€‘ν•¨κ³Ό λ¬΄μ„œμ›€μ„ κΉ¨λ‹¬μ•˜μŠ΅λ‹ˆλ‹€. νŒ€μ›λ“€μ—κ²Œ κ°μ‚¬ν•˜κ³ , 데이터 μ œμž‘ν•˜μ‹œλŠ” 뢄듀이 λŒ€λ‹¨ν•˜λ‹€κ³  생각이 λ“€μ—ˆμŠ΅λ‹ˆλ‹€. μ΄μ œλΆ€ν„° 데이터셋이 μ΄μƒν•˜λ‹€κ³  λΆˆν‰ν•˜μ§€ μ•Šκ³ , κ°μ‚¬ν•œ 마음으둜 μž„ν• κ²ƒ κ°™μŠ΅λ‹ˆλ‹€.

μž˜ν–ˆλ˜ 것, μ’‹μ•˜λ˜ 것, 계속할 것

  • ν† μ˜ν•΄μ•Ό ν•  μ μ΄λΌλŠ” 생각이 λ“ λ‹€λ©΄ μΉ΄ν†‘μœΌλ‘œ λ°”λ‘œ κ³΅μœ ν•œ 점.
  • μ˜κ²¬μ„ λ‚΄κ³  회의 μ‹œκ°„ 내에 방법을 μ •ν•œ 것.

잘λͺ»ν–ˆλ˜ 것, μ•„μ‰¬μš΄ 것, λΆ€μ‘±ν•œ 것 -> κ°œμ„ λ°©ν–₯

  • μ λ‹Ήνžˆ λŠλ‚Œμ μΈ λŠλ‚ŒμœΌλ‘œ κ°€μ΄λ“œλΌμΈμ„ 마무리 ν•œ 점. λκΉŒμ§€ λͺ…ν™•ν•˜κ²Œ ν•˜λ € λ…Έλ ₯ν–ˆμ–΄μ•Ό ν–ˆλ‹€.
  • 'κ΄€κ³„μ—†μŒ'으둜 νƒœκΉ…λœ 데이터듀이 λ„ˆλ¬΄ λ§Žμ€ 것 κ°™λ‹€. entity듀을 더 많이 포함할 수 μžˆλŠ” relation을 κ³ λ €ν–ˆμ–΄μ•Όν•  것 κ°™λ‹€.
  • μ΅œλŒ€ν•œ 라벨링 κ·œμΉ™μ„ μ„Έμ› μŒμ—λ„ 개인적인 편ν–₯이 많이 μ‚¬μš©λœ 것을 보면 μ’€ 더 ꡬ체적으둜 ν•΄μ•Όν–ˆμ„ 것 κ°™λ‹€.
  • 일정이 μ–΄λ €μš΄ 것이라 μ˜ˆμƒλ˜μ—ˆμŒμ—λ„ μΆ©λΆ„ν•œ μ‹œκ°„μ„ 두지 μ•Šμ•˜λ˜ 점이 아쉽닀. 더 μ—¬μœ μžˆκ²Œ κ΅¬μ„±ν–ˆμ–΄μ•Ό ν–ˆλ‹€.
  • RE task의 application을 μ•Œμ•˜λ‹€λ©΄, 데이터 μ œμž‘μ—μ„œ μ–΄λ–€ 뢀뢄을 κ°œμ„ ν•΄μ•Ό ν•  μ§€ μ•Œ 수 μžˆμ„ 것 κ°™λ‹€.

도전할 것, μ‹œλ„ν•  것

  • 더 μ •ν™•ν•œ κ°€μ΄λ“œλΌμΈ.
  • 파일럿 라벨링 μ‹œκ°„μ„ 더 길게 κ°€μ Έμ„œ 라벨링 κ³Όμ •μ—μ„œ μƒκΈ°λŠ” 이슈λ₯Ό 더 μ°Ύμ•„ κ°€μ΄λ“œλΌμΈμ— λ°˜μ˜ν•˜κΈ°
  • 데이터 필터링을 더 μ„Έμ„Έν•˜κ²Œ μ§„ν–‰ν•˜μ—¬ λ°μ΄ν„°λ‘œμ„œμ˜ κ°€μΉ˜κ°€ μ—†λŠ” 것듀을 μ΅œμ†Œν™”ν•΄μ•Όν•  것 κ°™λ‹€.
  • 더 λ§Žμ€ 데이터λ₯Ό 닀루기 μœ„ν•œ 일괄 처리 방식.

개인 감상

  • 문석암
    • μ™œ 데이터가 λΉ„μ‹Όμ§€ μ•Œκ² λ‹€. 쀑ꡭ이 데이터에 돈 많이 μ“°λŠ”κ²Œ μ–Όλ§ˆλ‚˜ 큰 영ν–₯인지도 덩달아 μ•Œμ•˜λ‹€
  • λ°•λ§ˆλ£¨μ°¬
    • 전체적인 과정을 κ²½ν—˜ν•΄μ„œ μ’‹μ•˜λ‹€. λ‹€μŒμ•  ν•΄μ•Ό ν•œλ‹€λ©΄ 더 μ œλŒ€λ‘œ ν•  수 μžˆμ„ 것 κ°™μŒ! μž˜λ°°μ›€!
  • λ°•μ•„λ©˜
    • λ°μ΄ν„°μ œμž‘μ€ μΆ©λΆ„νžˆ 돈 λ°›μœΌλ©΄μ„œ ν• λ§Œν•œ νž˜λ“  일이닀. λ‚΄ μΈμƒμ—μ„œ λ‹€μ‹œ λ³Ό 날이 μ—†μ—ˆμœΌλ©΄ μ’‹κ² λ‹€.
  • μš°μ›μ§„
    • λͺ¨λΈμ„ λ§Œλ“€λ•Œ 데이터가 κ°€μž₯ μ€‘μš”ν•˜κ³ , κ°€μž₯ μ‹œκ°„μ΄ 많이 μ‚¬μš©λœλ‹€κ³  λ“€μ—ˆλŠ”λ° 정말 잘 μ•Œκ²Œλœ 것 κ°™λ‹€.
  • μœ€μ˜ν›ˆ
    • 직접 해보기 μ „μ—λŠ” 데이터 μ œμž‘μ΄ λ‚˜λ¦„ μž¬λ―ΈμžˆλŠ” 과정일 것이라고 μƒκ°ν–ˆλŠ”λ°, 2μ£Όκ°„ μ§„ν–‰ν•΄λ³΄λ‹ˆ λ„ˆλ¬΄ μž¬λ―Έμ—†κ³  νž˜λ“  μž‘μ—…μ΄μ—ˆλ‹€.
  • μž₯동건
    • 라벨링 ν•˜λŠ” 기쀀을 쑰금 더 λ””ν…ŒμΌν•˜κ²Œ μ •ν•˜κ³  생각할 μ‹œκ°„μ΄ 더 λ§Žμ•˜μœΌλ©΄ 더 퀄리티 쒋은 데이터λ₯Ό λ§Œλ“€ 수 μžˆμ—ˆμ„ 것 κ°™λ‹€λŠ” 생각이 λ“€μ–΄ 아쉽닀. κ·Έλ ‡μ§€λ§Œ 더 ν•˜κ³  μ‹Άμ§€λŠ” μ•Šμ€ μΌμ΄μ—ˆλ‹€.
  • ν™ν˜„μŠΉ
    • 이,κ·Έ,μ € 와 같은 λŒ€λͺ…사λ₯Ό entity둜 μž‘μ€ λ¬Έμž₯이 λͺ‡κ°œ μžˆμ–΄μ„œ ν˜Όλž€μ„ μœ λ°œν•œ 점이 아쉽닀. λ˜ν•œ 데이터 μ œμž‘μ„ 마무리 ν• λ•Œμ―€ λ„ˆλ¬΄ κΈ‰ν•˜κ²Œ ν•œ 감이 μžˆμ–΄μ„œ 아쉬웠닀.

Wrap-up Report

λŒ€νšŒ κ°œμš”

  • Relation extraction 데이터셋 μ œμž‘
    • 관계 μΆ”μΆœ νƒœμŠ€ν¬μ— μ“°μ΄λŠ” 주석 μ½”νΌμŠ€λ₯Ό λ§Œλ“€μ–΄ λ³Έλ‹€.
    • λ¬Έμž₯λ‚΄μ—μ„œ 두 단어(subject, object)와 λ‘˜μ˜ 관계 쌍의 데이터셋을 μ œμž‘ν•˜λŠ” 과정을 톡해 데이터에 λŒ€ν•΄ μ΄ν•΄ν•œλ‹€.

νŒ€ ꡬ성 및 μ—­ν• 

  • 문석암_T2075
  • λ°•λ§ˆλ£¨μ°¬_T2078
  • λ°•μ•„λ©˜_T2090
  • μš°μ›μ§„_T2137
  • μœ€μ˜ν›ˆ_T2142
  • μž₯동건_T2185
  • ν™ν˜„μŠΉ_T2250

데이터 μˆ˜ν–‰ μ ˆμ°¨μ™€ κ²½κ³Ό

μ „μ²˜λ¦¬ (KSS,Filter)

  • Sentence Segmentation 을 μ§„ν–‰ν•˜κΈ° μœ„ν•΄ KSS λ₯Ό μ‚¬μš©ν•¨.
  • mecab을 μ΄μš©ν•œ morph filterλ₯Ό μ§„ν–‰.

Relation, Entity type μ„ μ •

  • Pororo NER 을 μ΄μš©ν•˜μ—¬ Entity 데이터 κ²°κ³Όλ₯Ό λ°”νƒ•μœΌλ‘œ μ•„λž˜ Relation 을 μ„ μ • ν›„ μƒˆλ‘­κ²Œ Entityλ₯Ό λ‹€μ‹œ νƒœκΉ…ν•¨

κ°€μ΄λ“œλΌμΈ μž‘μ„±

  • 관계_μ—†μŒ
    • ν•˜μœ„ λͺ¨λ“  κ²½μš°μ— ν¬ν•¨λ˜μ§€ μ•ŠλŠ” λͺ¨λ“  경우
  • μš©μ–΄:별칭
    • (TERM,TERM) ObjectλŠ” Subject의 또 λ‹€λ₯Έ 이름
  • μš©μ–΄:λ“±μž₯μ‹œκΈ°
    • (TERM,DATE) ObjectλŠ” Subject의 λ“±μž₯ μ‹œκΈ°
  • μ œν’ˆ:λΆ€ν’ˆ
    • (TERM,TERM) ObjectλŠ” Subject의 λΆ€ν’ˆ
  • μš©μ–΄:ν–‰μœ„
    • (TERM, TERM) ObjectλŠ” Subject의 ν–‰μœ„
  • μš©μ–΄:일쒅
    • (TERM, TERM) ObjectλŠ” Subject의 일쒅
  • μ‚¬λžŒ:κ³ μ•ˆλ¬Ό/μ œμž‘λ¬Ό
    • (PER, TERM) ObjectλŠ” Subject의 μ œν’ˆ/μ°½μž‘λ¬Ό/κ³ μ•ˆλ¬Ό/μž‘ν’ˆ
  • 직업:도ꡬ
    • (PER,TERM) ObjectλŠ” Subject의 도ꡬ
  • 단체:μ œν’ˆ
    • (ORG,TERM) ObjectλŠ” Subject의 μ œν’ˆ
  • μš©μ–΄:도ꡬ
    • (TERM, TERM) ObjectλŠ” Subject의 동쒅업계

μ—”ν‹°ν‹° νƒœκΉ… (tagtog.net)

  • λ¬Έμž₯의 κ°€λŠ₯ν•œ relation을 κ³ λ €ν•˜μ—¬ entity νƒœκΉ…
  • 전체 λ¬Έμž₯을 λ‚˜λˆ μ„œ 각자 μ§„ν–‰ ν›„ 병합

라벨링

  • 라벨링은 각 λ¬Έμž₯-μ—”ν‹°ν‹° 쌍 λ‹Ή 5λͺ…이 μˆ˜ν–‰ν–ˆλ‹€.
  • SpreadSheet에 μž‘μ„±ν•΄μ„œ 데이터λ₯Ό μ·¨ν•©ν•˜μ˜€λ‹€.

μ΅œμ’… ν”„λ‘œμ νŠΈ κ²°κ³Ό

IAA (inter-annotator agreement)

  • 0.7128749615856718

Model fine-tuning

  • 라벨링 μ™„λ£Œλœ μŠ€ν”„λ ˆλ“œ μ‹œνŠΈ μ €μž₯ν•˜μ—¬ λ°μ΄ν„°μ…‹μœΌλ‘œ μ‚¬μš©
  • Stratification μ μš©ν•˜μ—¬ train,val set 뢄리
κ²°κ³Ό

  • datasetμ—μ„œ test_set의 no_relation 비쀑을 쀄이면 μ μˆ˜κ°€ μ†Œν­ ν•˜λ½.

자체 평가 의견

μž˜ν–ˆλ˜ 것, μ’‹μ•˜λ˜ 것, 계속할 것

  • ν† μ˜ν•΄μ•Ό ν•  μ μ΄λΌλŠ” 생각이 λ“ λ‹€λ©΄ μΉ΄ν†‘μœΌλ‘œ λ°”λ‘œ κ³΅μœ ν•œ 점.
  • μ˜κ²¬μ„ λ‚΄κ³  회의 μ‹œκ°„ 내에 방법을 μ •ν•œ 것.

잘λͺ»ν–ˆλ˜ 것, μ•„μ‰¬μš΄ 것, λΆ€μ‘±ν•œ 것 -> κ°œμ„ λ°©ν–₯

  • μ λ‹Ήνžˆ λŠλ‚Œμ μΈ λŠλ‚ŒμœΌλ‘œ κ°€μ΄λ“œλΌμΈμ„ 마무리 ν•œ 점. λκΉŒμ§€ λͺ…ν™•ν•˜κ²Œ ν•˜λ € λ…Έλ ₯ν–ˆμ–΄μ•Ό ν–ˆλ‹€.
  • 'κ΄€κ³„μ—†μŒ'으둜 νƒœκΉ…λœ 데이터듀이 λ„ˆλ¬΄ λ§Žμ€ 것 κ°™λ‹€. entity듀을 더 많이 포함할 수 μžˆλŠ” relation을 κ³ λ €ν–ˆμ–΄μ•Όν•  것 κ°™λ‹€.
  • μ΅œλŒ€ν•œ 라벨링 κ·œμΉ™μ„ μ„Έμ› μŒμ—λ„ 개인적인 편ν–₯이 많이 μ‚¬μš©λœ 것을 보면 μ’€ 더 ꡬ체적으둜 ν•΄μ•Όν–ˆμ„ 것 κ°™λ‹€.
  • 일정이 μ–΄λ €μš΄ 것이라 μ˜ˆμƒλ˜μ—ˆμŒμ—λ„ μΆ©λΆ„ν•œ μ‹œκ°„μ„ 두지 μ•Šμ•˜λ˜ 점이 아쉽닀. 더 μ—¬μœ μžˆκ²Œ κ΅¬μ„±ν–ˆμ–΄μ•Ό ν–ˆλ‹€.
  • RE task의 application을 μ•Œμ•˜λ‹€λ©΄, 데이터 μ œμž‘μ—μ„œ μ–΄λ–€ 뢀뢄을 κ°œμ„ ν•΄μ•Ό ν•  μ§€ μ•Œ 수 μžˆμ„ 것 κ°™λ‹€.

도전할 것, μ‹œλ„ν•  것

  • 더 μ •ν™•ν•œ κ°€μ΄λ“œλΌμΈ.
  • 파일럿 라벨링 μ‹œκ°„μ„ 더 길게 κ°€μ Έμ„œ 라벨링 κ³Όμ •μ—μ„œ μƒκΈ°λŠ” 이슈λ₯Ό 더 μ°Ύμ•„ κ°€μ΄λ“œλΌμΈμ— λ°˜μ˜ν•˜κΈ°
  • 데이터 필터링을 더 μ„Έμ„Έν•˜κ²Œ μ§„ν–‰ν•˜μ—¬ λ°μ΄ν„°λ‘œμ„œμ˜ κ°€μΉ˜κ°€ μ—†λŠ” 것듀을 μ΅œμ†Œν™”ν•΄μ•Όν•  것 κ°™λ‹€.
  • 더 λ§Žμ€ 데이터λ₯Ό 닀루기 μœ„ν•œ 일괄 처리 방식.