Week16 Day1 - ai-esg/our-history GitHub Wiki

νŒ€ NLP 11μ‘° Week16 Day1

λͺ©μ°¨

일자

  • 2021.11.15 μ›”

νŒ€μ›

  • 문석암_T2075
  • λ°•λ§ˆλ£¨μ°¬_T2078
  • λ°•μ•„λ©˜_T2090
  • μš°μ›μ§„_T2137
  • μœ€μ˜ν›ˆ_T2142
  • μž₯동건_T2185
  • ν™ν˜„μŠΉ_T2250

μ£Όκ°„ 일정

ν”Όμ–΄μ„Έμ…˜

e-mail

ν˜•μ‹

(λ³΅μ‚¬ν•œ λ¬Έμ„œκ°€ μ™„μ „νžˆ λ˜‘κ°™μ΄ 보여야 ν•©λ‹ˆλ‹€) context :

sentence
"{text}"

Document name :

split_{i}.csv

FAQ

  • κ΄„ν˜Έλ‘œ 별칭이 μžˆλŠ” 경우 entityλ₯Ό μž‘λŠ”κ±΄ μ–΄λ–»κ²Œ μž‘λ‚˜μš”?

    • '('λ‚˜ ')'κ³Ό 같은 κ΄„ν˜Έ 문자λ₯Ό ν¬ν•¨ν•˜μ§€ μ•Šλ„λ‘ 별칭을 μž‘μŠ΅λ‹ˆλ‹€. κ΄„ν˜Έ λ‚΄λΆ€μ˜ λ‹¨μ–΄λŠ” entity둜 μž‘μ•„λ„ μ’‹μŠ΅λ‹ˆλ‹€.
  • org:product κ΄€κ³„μ—μ„œ org:Personκ³Ό 같은 κ΄€κ³„λŠ” μ–΄λ–»κ²Œ μ²˜λ¦¬ν•˜λ‚˜μš”?

    • no_relation 처리λ₯Ό ν•©λ‹ˆλ‹€.
동일 단어가 μ—¬λŸ¬λ²ˆ λ“±μž₯ν•  경우
  • ν•˜λ‚˜μ˜ λ‹¨μ–΄λ§Œ μ—”ν‹°ν‹°λ‘œ 선택. λ‚˜λ¨Έμ§€λŠ” 제거.
λ¬Έμž₯이 μ•„λ‹ˆκ±°λ‚˜ entity κ°€ μ—†λŠ”κ²½μš°
  • μ‚­μ œν•˜κ±°λ‚˜ 아무 check 없이 λ„˜κΈ°κ±°λ‚˜
μˆ˜μ‹μ–΄? 엔티티에 포함해야 ν•˜λŠ”κ°€?
  • λ¬΄ν•œνžˆ κΈ΄ λ©”λͺ¨μ§€
  • 튜링 ν…ŒμŠ€νŠΈμ˜ μ€‘μš”ν•œ 츑면은 기계가 μžμ‹ μ˜ 말둜 슀슀둜λ₯Ό κΈ°κ³„λ‘œ ν‘œν˜„ν•΄μ•Ό ν•œλ‹€λŠ” 것이닀.
  • cpuκ°€ λ””μ§€ν„Έ μ‹ ν˜Έλ₯Ό μ•„λ‚ λ‘œκ·Έ μ‹ ν˜Έλ‘œ λ³€ν™˜μ‹œν‚¨λ‹€.
    • κ²°λ‘  :μˆ˜μ‹ν•˜λŠ” 단어도 포함 κ°€λŠ₯. λ‘˜ λ‹€ κ°€λŠ₯. λ„ˆλ¬΄ κΈ΄ 건 ν”Όν•˜μž.(6인 쀑 4인 μ°¬μ„±)
λ³Έ λ¬Έμ„œμ—μ„œ κΈ°μˆ ν•˜λŠ” μ„ΈλΆ€ λΆ„λ₯˜ 개체λͺ… λ²”μœ„λŠ” λͺ…사, 볡합λͺ…사 그리고 일뢀 λͺ…사ꡬ
ν˜•νƒœλΏ μ•„λ‹ˆλΌ λ™μ‚¬κ΅¬λ‚˜ 절 ν˜•νƒœμ˜ 개체λͺ…이 될 수 μžˆλŠ” λͺ¨λ“  ν˜•νƒœλ₯Ό λŒ€μƒμœΌλ‘œ ν•œλ‹€.
ν˜•νƒœμ†ŒλΆ„μ„μ€ λͺ…사, 동사, ν˜•μš©μ‚¬, 뢀사, 쑰사, μ–΄λ―Έ λ“±μ˜ ν˜•νƒœμ†Œ λ‹¨μœ„ 및 μ ν•©ν•œ ν’ˆμ‚¬λ₯Ό
μΈμ‹ν•˜λŠ” 것이 λͺ©ν‘œμΈ 반면, 개체λͺ… 인식은 β€œν™κΈΈλ™β€(λͺ…사)κ³Ό 같이 1개의 ν˜•νƒœμ†Œκ°€
개체λͺ… λ‹¨μœ„κ°€ 될 μˆ˜λ„ μžˆμ§€λ§Œ β€œ10μ‹œλΆ€ν„° 12μ‹œκΉŒμ§€β€(λͺ…사ꡬ)와 같이 2개 μ΄μƒμ˜
ν˜•νƒœμ†Œλ‘œ κ΅¬μ„±λœ ν˜•νƒœκ°€ 개체λͺ… λ‹¨μœ„κ°€ 될 μˆ˜λ„ μžˆλ‹€.

relation, entity μˆ˜μ • 사항(의견)
  • 11번. λ°˜μ˜μ–΄ 제거
  • 2번. λ³„μΉ­μ˜ ν™•μž₯. term뿐 μ•„λ‹ˆλΌ org, per에 λŒ€ν•΄μ„œλ„ κ°€λŠ₯ν•˜λ„λ‘.
    • ex) 튜링 - 컴퓨터 κ³Όν•™μ˜ 아버지. 이것은 no-relationμž„. 이λ₯Ό 2에 ν†΅ν•©μ‹œν‚€λ €λŠ” 것.
    • term-termκ³Ό per-per을 같은 라벨을 ν•˜λ©΄ per-term의 처리 λ“±μ—μ„œ ν•™μŠ΅μ— μ–΄λ €μšΈ 수 μžˆλ‹€.
  • term의 뢄리. term이 λ„ˆλ¬΄ 크닀.

νŒ€ν”„λ‘œμ νŠΈ 아이디어

  1. 감정 뢄석

    • 일기
    • 카톑 (λ°μ΄ν„°λ§Œλ“€κΈ°κ°€)
    • μŒμ•…μΆ”μ²œ
  2. 리뷰 뢄석 (λΆ„μ•Ό)

    • 긍정/뢀정리뷰, 긍정/λΆ€μ • ν‚€μ›Œλ“œ? ν”Όλ“œλ°±?
      • 라벨을 μ κ²Œν•˜λ©΄ 80%
      • 저희가 λΆ„λ₯˜
      • mrc처럼 ν‚€μ›Œλ“œ μΆ”μΆœν•˜κΈ° or 라벨에 λ”°λΌμ„œ λ¬Έμž₯ λΆ„λ₯˜ν•˜κΈ°.
    • κ°€κ²Œ 리뷰 λŒ“κΈ€λ“€ 크둀링 ν›„ ν•΄λ‹Ή κ°€κ²Œ μ‚¬λžŒλ“€ λ°˜μ‘? 정도 λ½‘λŠ”κ²ƒλ„ 쒋을 것 κ°™μŠ΅λ‹ˆλ‹€ (λΆ„μ•Ό)
      • μŒμ•…
      • ꡐ윑
      • 슀포츠
      • λ¬Έν™” (STT 도 API ν†΅ν•΄μ„œ ν™œμš©κ°€λŠ₯ν•˜λ‹€!) μ†λ§Œ 많이감 https://corpus.korean.go.kr/#none
  3. μ‹€μ‹œκ°„ μ±„νŒ… 뢄석 (라벨링 μ •μ‹ λ‚˜κ°ˆλ“―?) 111

    • 톡계화
    • Class
    • 감정
    • regex 뢄석 ν•  수 μ—†λŠ” μ•…μ„± μ±„νŒ…
  4. 회의둝 μžλ™ ꡬ성 1

    • μ‚¬λžŒ ꡬ뢄
    • STT

    • λΆ„λ₯˜
      • 주식
      • 취직
      • ν”„λ‘œμ νŠΈ
    • μš”μ•½
      • μš”μ•½
    • 회의둝 양식?에 맞좰 μž‘μ„±
  5. 가계뢀 μ§€μΆœ 예츑 및 μ•žμœΌλ‘œ μ‚¬μš© νŒ¨ν„΄ ꡐ정 111

  6. 문제 사진 찍으면 λ‹΅ λ‚΄κΈ° 111

  7. 범죄에 λŒ€ν•œ λ¬˜μ‚¬ -> 처벌 강도 좜λ ₯ 1

  • 민사

    • 민사 λ‚΄μ—μ„œ 더 μ„ΈλΆ„ν™”
    • 법λ₯  곡방을 ν–ˆμ„ λ•Œ κ²°κ³Ό
  • λ°μ΄ν„°λ§Œ μžˆλ‹€λ©΄

  1. λ¬˜μ‚¬ 기반 μ„œμΉ­