Week16 Day5 - ai-esg/our-history GitHub Wiki
ν NLP 11μ‘° Week16 Day5
λͺ©μ°¨
- νΌμ΄μΈμ
- μ΅μ’ νλ‘μ νΈ
- ννκ³
- Wrap-up Report
μΌμ
- 2021.11.19 κΈ
νμ
- λ¬Έμμ_T2075
- λ°λ§λ£¨μ°¬_T2078
- λ°μλ©_T2090
- μ°μμ§_T2137
- μ€μν_T2142
- μ₯λ건_T2185
- ννμΉ_T2250
μ£Όκ° μΌμ
νΌμ΄μΈμ
μ΅μ’ νλ‘μ νΈ
μ¬μ© μλ리μ€
- μ λ ₯ λ¬Έμ₯
λ°μ΄ν°
-
리μ€νΈ λ½κΈ° by tour API (μ λ΅)
- μ¬κΈ° λ¬Έμ₯λ μ¬μ©κ°λ₯νλ©΄ μ¬μ©νκΈ°
-
λ°μ΄ν° κ°μ Έμ€κΈ° (λ¬Έμ₯)
- google API
- λ€μ΄λ² : ν¬λ‘€λ§
- μΈμ€ν : ν¬λ‘€λ§ λ°©λ² μμλ΄μ
ννκ³
ν νκ°
- λ¬Έμμ
- λ°μ΄ν°μ κ·μ€ν¨? λ°μ΄ν°μ μμ€ν¨μ λ€κ°μ΄ λκΌμκ±°λΌ μκ°ν©λλ€. κ·Έλλ λ€κ°μ΄ μ΄μ¬ν ν΄μ£Όμ μ μ μ§νν μ μλκ±° κ°μ΅λλ€.
- λ°λ§λ£¨μ°¬
- λ€κ°μ΄ λ°©λ²μ μ νκ³ λ Έκ°λ€λ₯Ό ν¨κ» νλλ°, μ¬λ°μλ€. κ°μ΄ νλ λλμ΄ λ§μ΄ λ¬μ.
- λ°μλ©
- μ΄λ² ν μ£Ό νΉμ¬λΉν νμλ€μ΄ λ무 κ³ μνλ€. νΉν μλ²½μλ μΌν νΉμ νμλ€μκ² κ°μ¬ν¨μ ννλ€.
- μ°μμ§
- μμ λ°μ΄ν°λ₯Ό λ§λλλ° μμμΈμ²λΌ μΌμ νλ©΄μ νλ¦μ μκ² λ κ² κ°μ΅λλ€. μ λ§ μ μ§ μμ λ°μ΄ν°λ₯Ό νλ€κ³ κ³ μν νμλ€μ΄ λλ¨νλ€κ³ λκΌμ΅λλ€.
- μ€μν
- μμ λ°μ΄ν°μμλΆν° μμνμ¬ λ¬Έμ₯ filteringν΄μ£Όκ³ , entity νκΉ , relation νκΉ κΉμ§ λ€λ€ λ무 κ³ μνμ κ² κ°λ€. λ°λ³΅ μμ μΈ λ°μ΄ν° μ μμ λ무 νλ€μλ κ² κ°λ€.
- μ₯λ건
- μ΄μ νλ‘μ νΈμ μ±κ²©μ΄ λ§μ΄ λ¬λΌ μ μνκΈ°κ° μ΄λ €μ μ΅λλ€. λ°μ΄ν°λ₯Ό λ§λλ κ³Όμ μ΄ μ μκ°λ³΄λ€ μκ°ν΄μΌ ν κ²μ΄ λ§κ³ μκ°κ³Ό λ Έλμ΄ λ§μ΄ νμνλ€λ κ²μ λκΌμ΅λλ€.
- ννμΉ
- λ Έκ°λ€μ μμ€ν¨κ³Ό 무μμμ κΉ¨λ¬μμ΅λλ€. νμλ€μκ² κ°μ¬νκ³ , λ°μ΄ν° μ μνμλ λΆλ€μ΄ λλ¨νλ€κ³ μκ°μ΄ λ€μμ΅λλ€. μ΄μ λΆν° λ°μ΄ν°μ μ΄ μ΄μνλ€κ³ λΆννμ§ μκ³ , κ°μ¬ν λ§μμΌλ‘ μν κ² κ°μ΅λλ€.
μνλ κ², μ’μλ κ², κ³μν κ²
- ν μν΄μΌ ν μ μ΄λΌλ μκ°μ΄ λ λ€λ©΄ μΉ΄ν‘μΌλ‘ λ°λ‘ 곡μ ν μ .
- μ견μ λ΄κ³ νμ μκ° λ΄μ λ°©λ²μ μ ν κ².
μλͺ»νλ κ², μμ¬μ΄ κ², λΆμ‘±ν κ² -> κ°μ λ°©ν₯
- μ λΉν λλμ μΈ λλμΌλ‘ κ°μ΄λλΌμΈμ λ§λ¬΄λ¦¬ ν μ . λκΉμ§ λͺ ννκ² νλ € λ Έλ ₯νμ΄μΌ νλ€.
- 'κ΄κ³μμ'μΌλ‘ νκΉ λ λ°μ΄ν°λ€μ΄ λ무 λ§μ κ² κ°λ€. entityλ€μ λ λ§μ΄ ν¬ν¨ν μ μλ relationμ κ³ λ €νμ΄μΌν κ² κ°λ€.
- μ΅λν λΌλ²¨λ§ κ·μΉμ μΈμ μμλ κ°μΈμ μΈ νΈν₯μ΄ λ§μ΄ μ¬μ©λ κ²μ 보면 μ’ λ ꡬ체μ μΌλ‘ ν΄μΌνμ κ² κ°λ€.
- μΌμ μ΄ μ΄λ €μ΄ κ²μ΄λΌ μμλμμμλ μΆ©λΆν μκ°μ λμ§ μμλ μ μ΄ μμ½λ€. λ μ¬μ μκ² κ΅¬μ±νμ΄μΌ νλ€.
- RE taskμ applicationμ μμλ€λ©΄, λ°μ΄ν° μ μμμ μ΄λ€ λΆλΆμ κ°μ ν΄μΌ ν μ§ μ μ μμ κ² κ°λ€.
λμ ν κ², μλν κ²
- λ μ νν κ°μ΄λλΌμΈ.
- νμΌλΏ λΌλ²¨λ§ μκ°μ λ κΈΈκ² κ°μ Έμ λΌλ²¨λ§ κ³Όμ μμ μκΈ°λ μ΄μλ₯Ό λ μ°Ύμ κ°μ΄λλΌμΈμ λ°μνκΈ°
- λ°μ΄ν° νν°λ§μ λ μΈμΈνκ² μ§ννμ¬ λ°μ΄ν°λ‘μμ κ°μΉκ° μλ κ²λ€μ μ΅μνν΄μΌν κ² κ°λ€.
- λ λ§μ λ°μ΄ν°λ₯Ό λ€λ£¨κΈ° μν μΌκ΄ μ²λ¦¬ λ°©μ.
κ°μΈ κ°μ
- λ¬Έμμ
- μ λ°μ΄ν°κ° λΉμΌμ§ μκ² λ€. μ€κ΅μ΄ λ°μ΄ν°μ λ λ§μ΄ μ°λκ² μΌλ§λ ν° μν₯μΈμ§λ λ©λ¬μ μμλ€
- λ°λ§λ£¨μ°¬
- μ 체μ μΈ κ³Όμ μ κ²½νν΄μ μ’μλ€. λ€μμ ν΄μΌ νλ€λ©΄ λ μ λλ‘ ν μ μμ κ² κ°μ! μλ°°μ!
- λ°μλ©
- λ°μ΄ν°μ μμ μΆ©λΆν λ λ°μΌλ©΄μ ν λ§ν νλ μΌμ΄λ€. λ΄ μΈμμμ λ€μ λ³Ό λ μ΄ μμμΌλ©΄ μ’κ² λ€.
- μ°μμ§
- λͺ¨λΈμ λ§λ€λ λ°μ΄ν°κ° κ°μ₯ μ€μνκ³ , κ°μ₯ μκ°μ΄ λ§μ΄ μ¬μ©λλ€κ³ λ€μλλ° μ λ§ μ μκ²λ κ² κ°λ€.
- μ€μν
- μ§μ ν΄λ³΄κΈ° μ μλ λ°μ΄ν° μ μμ΄ λλ¦ μ¬λ―Έμλ κ³Όμ μΌ κ²μ΄λΌκ³ μκ°νλλ°, 2μ£Όκ° μ§νν΄λ³΄λ λ무 μ¬λ―Έμκ³ νλ μμ μ΄μλ€.
- μ₯λ건
- λΌλ²¨λ§ νλ κΈ°μ€μ μ‘°κΈ λ λν μΌνκ² μ νκ³ μκ°ν μκ°μ΄ λ λ§μμΌλ©΄ λ νλ¦¬ν° μ’μ λ°μ΄ν°λ₯Ό λ§λ€ μ μμμ κ² κ°λ€λ μκ°μ΄ λ€μ΄ μμ½λ€. κ·Έλ μ§λ§ λ νκ³ μΆμ§λ μμ μΌμ΄μλ€.
- ννμΉ
- μ΄,κ·Έ,μ μ κ°μ λλͺ μ¬λ₯Ό entityλ‘ μ‘μ λ¬Έμ₯μ΄ λͺκ° μμ΄μ νΌλμ μ λ°ν μ μ΄ μμ½λ€. λν λ°μ΄ν° μ μμ λ§λ¬΄λ¦¬ ν λμ―€ λ무 κΈνκ² ν κ°μ΄ μμ΄μ μμ¬μ λ€.
Wrap-up Report
λν κ°μ
- Relation extraction λ°μ΄ν°μ
μ μ
- κ΄κ³ μΆμΆ νμ€ν¬μ μ°μ΄λ μ£Όμ μ½νΌμ€λ₯Ό λ§λ€μ΄ λ³Έλ€.
- λ¬Έμ₯λ΄μμ λ λ¨μ΄(subject, object)μ λμ κ΄κ³ μμ λ°μ΄ν°μ μ μ μνλ κ³Όμ μ ν΅ν΄ λ°μ΄ν°μ λν΄ μ΄ν΄νλ€.
ν κ΅¬μ± λ° μν
- λ¬Έμμ_T2075
- λ°λ§λ£¨μ°¬_T2078
- λ°μλ©_T2090
- μ°μμ§_T2137
- μ€μν_T2142
- μ₯λ건_T2185
- ννμΉ_T2250
λ°μ΄ν° μν μ μ°¨μ κ²½κ³Ό
μ μ²λ¦¬ (KSS,Filter)
- Sentence Segmentation μ μ§ννκΈ° μν΄ KSS λ₯Ό μ¬μ©ν¨.
- mecabμ μ΄μ©ν morph filterλ₯Ό μ§ν.
Relation, Entity type μ μ
- Pororo NER μ μ΄μ©νμ¬ Entity λ°μ΄ν° κ²°κ³Όλ₯Ό λ°νμΌλ‘ μλ Relation μ μ μ ν μλ‘κ² Entityλ₯Ό λ€μ νκΉ ν¨
κ°μ΄λλΌμΈ μμ±
- κ΄κ³_μμ
- νμ λͺ¨λ κ²½μ°μ ν¬ν¨λμ§ μλ λͺ¨λ κ²½μ°
- μ©μ΄:λ³μΉ
- (TERM,TERM) Objectλ Subjectμ λ λ€λ₯Έ μ΄λ¦
- μ©μ΄:λ±μ₯μκΈ°
- (TERM,DATE) Objectλ Subjectμ λ±μ₯ μκΈ°
- μ ν:λΆν
- (TERM,TERM) Objectλ Subjectμ λΆν
- μ©μ΄:νμ
- (TERM, TERM) Objectλ Subjectμ νμ
- μ©μ΄:μΌμ’
- (TERM, TERM) Objectλ Subjectμ μΌμ’
- μ¬λ:κ³ μλ¬Ό/μ μλ¬Ό
- (PER, TERM) Objectλ Subjectμ μ ν/μ°½μλ¬Ό/κ³ μλ¬Ό/μν
- μ§μ
:λꡬ
- (PER,TERM) Objectλ Subjectμ λꡬ
- λ¨μ²΄:μ ν
- (ORG,TERM) Objectλ Subjectμ μ ν
- μ©μ΄:λꡬ
- (TERM, TERM) Objectλ Subjectμ λμ’ μ κ³
μν°ν° νκΉ (tagtog.net)
- λ¬Έμ₯μ κ°λ₯ν relationμ κ³ λ €νμ¬ entity νκΉ
- μ 체 λ¬Έμ₯μ λλ μ κ°μ μ§ν ν λ³ν©
λΌλ²¨λ§
- λΌλ²¨λ§μ κ° λ¬Έμ₯-μν°ν° μ λΉ 5λͺ μ΄ μννλ€.
- SpreadSheetμ μμ±ν΄μ λ°μ΄ν°λ₯Ό μ·¨ν©νμλ€.
μ΅μ’ νλ‘μ νΈ κ²°κ³Ό
IAA (inter-annotator agreement)
- 0.7128749615856718
Model fine-tuning
- λΌλ²¨λ§ μλ£λ μ€νλ λ μνΈ μ μ₯νμ¬ λ°μ΄ν°μ μΌλ‘ μ¬μ©
- Stratification μ μ©νμ¬ train,val set λΆλ¦¬
κ²°κ³Ό
- datasetμμ test_setμ no_relation λΉμ€μ μ€μ΄λ©΄ μ μκ° μν νλ½.
μ체 νκ° μ견
μνλ κ², μ’μλ κ², κ³μν κ²
- ν μν΄μΌ ν μ μ΄λΌλ μκ°μ΄ λ λ€λ©΄ μΉ΄ν‘μΌλ‘ λ°λ‘ 곡μ ν μ .
- μ견μ λ΄κ³ νμ μκ° λ΄μ λ°©λ²μ μ ν κ².
μλͺ»νλ κ², μμ¬μ΄ κ², λΆμ‘±ν κ² -> κ°μ λ°©ν₯
- μ λΉν λλμ μΈ λλμΌλ‘ κ°μ΄λλΌμΈμ λ§λ¬΄λ¦¬ ν μ . λκΉμ§ λͺ ννκ² νλ € λ Έλ ₯νμ΄μΌ νλ€.
- 'κ΄κ³μμ'μΌλ‘ νκΉ λ λ°μ΄ν°λ€μ΄ λ무 λ§μ κ² κ°λ€. entityλ€μ λ λ§μ΄ ν¬ν¨ν μ μλ relationμ κ³ λ €νμ΄μΌν κ² κ°λ€.
- μ΅λν λΌλ²¨λ§ κ·μΉμ μΈμ μμλ κ°μΈμ μΈ νΈν₯μ΄ λ§μ΄ μ¬μ©λ κ²μ 보면 μ’ λ ꡬ체μ μΌλ‘ ν΄μΌνμ κ² κ°λ€.
- μΌμ μ΄ μ΄λ €μ΄ κ²μ΄λΌ μμλμμμλ μΆ©λΆν μκ°μ λμ§ μμλ μ μ΄ μμ½λ€. λ μ¬μ μκ² κ΅¬μ±νμ΄μΌ νλ€.
- RE taskμ applicationμ μμλ€λ©΄, λ°μ΄ν° μ μμμ μ΄λ€ λΆλΆμ κ°μ ν΄μΌ ν μ§ μ μ μμ κ² κ°λ€.
λμ ν κ², μλν κ²
- λ μ νν κ°μ΄λλΌμΈ.
- νμΌλΏ λΌλ²¨λ§ μκ°μ λ κΈΈκ² κ°μ Έμ λΌλ²¨λ§ κ³Όμ μμ μκΈ°λ μ΄μλ₯Ό λ μ°Ύμ κ°μ΄λλΌμΈμ λ°μνκΈ°
- λ°μ΄ν° νν°λ§μ λ μΈμΈνκ² μ§ννμ¬ λ°μ΄ν°λ‘μμ κ°μΉκ° μλ κ²λ€μ μ΅μνν΄μΌν κ² κ°λ€.
- λ λ§μ λ°μ΄ν°λ₯Ό λ€λ£¨κΈ° μν μΌκ΄ μ²λ¦¬ λ°©μ.