NLP - accidentlywoo/legacyVue GitHub Wiki
NLP
https://nlp.stanford.edu/IR-book/html/htmledition/stemming-and-lemmatization-1.html
Preprocessing
μμ°μ΄ λΆμ
- ννμ λΆμ
- ꡬ문 λΆμ
- μλ―Έ λΆμ
- λ΄ν λΆμ(μ μλ¨)
- μ€μμ± ν΄μ
- λ§μΆ€λ²κ²μ¬
--->
μμ© κΈ°μ
- κ²μ
- μ¨λΌμΈ κ΄κ³
- μλλ²μ
- κ°μ λΆμ
- μμ±μΈμ
cf. ν¬ν°μ€ μκ³ λ¦¬μ¦.
- ννμ λΆμ : ν ν° λΆλ¦¬(μ΄κ°), μ΄κ° μΆμΆ, νμ¬ λΆμ°©, μμΈ, 벑ν°ν
- ννμλΆμ = μ΄κ° + νμ¬ λΆμ
- λΌμ§ μ€μΌμΌ λλ©μ Όμμ λνλ©΄ 벑ν°λΌμ΄μ¦
- μ μ 리μ κ±°μ λ§μ§λ§ λ¨κ³
- ννμ λΆμμ΄ λλλ©΄ : written textλΌκ³ νννλ€.
- λ°±μ€λΈ μλ λͺ¨λΈ : (voca)보μΌλΆλ리λ₯Ό 벑ν°ννλ κ³Όμ .
- λ΄μ€ λ²‘ν° : ?? -> λ₯λ¬λμμ μΈ μ μλ€.
- λ²‘ν° ννμ λ¬΄μΌ μ¬μ©νλμ§ μμμΌ νλ€.
- ꡬ문 λΆμ : λ¬Έμ₯ κ²½κ³ μΈμ, ꡬ문λΆμ, 곡기μ΄, κ°μ²΄λͺ
μ¬μ ꡬμΆ(PLOT, μμΉ, μΈκ΅μ΄ νκΈ νκΈ°), κ°μ²΄λͺ
μΈμ
- μ²΄μΈ / μμ¬ -> NER(?)λ₯Ό μΆμΆν μ μλ€.
- λ¨μ΄μ λ¨μ΄ / λ¬Έμ₯κ³Ό λ¬Έμ₯ μ¬μ΄μ μ μ¬μ±μ μ°Ύμ μ μλ€.
- λ²‘ν° μ€νμ΄μ€μμ κ³μ°μ ν μ μλ€.
- νμ΄μ€νμ΄ PMI^2
- μ ν΅μ μΈ λΆμ λ¨κ³, κΈμ λͺ¨μμΈλ‘ νμ ν μ μλ λ¨κ³
- μλ―Έ λΆμ : λμ©μ΄ ν΄μ(λλͺ μ¬, λλ¬Έμμ΄, μ½μ΄, μμΉ), μλ―Έ μ€μμ± ν΄κ²°(λλͺ μ΄μΈ, μ΄λͺ λμΈ)
colourless green ideas sleep furiously
- μμμ΄, νμμ΄ , κ΄κ³μ΄,
- μ μ‘°μ΄, λΉμμ΄ κ΄λ¦¬λ₯Ό λ°λ‘ ν΄μ€μΌ νλ€.
- λ΄λ‘ λΆμ : λΆλ₯, κ΅°μ§, μ€λ³΅, μμ½, κ°μ€μΉ, μμν, ν ν½ λͺ¨λΈλ§, μ΄μ νΈλνΉ, ννλΆμ, κ°μ±λΆμ, 볡ν©λ Όμ¦ λΆμ
λ¬Έμ₯ > μ΄μ > λ¨μ΄ > ννμ
- ννμμ λ¨μ΄
-
λ¨μ΄ : λ»μ μ§λκ³ νλ‘ μ°μΌ μ μλ λ§
-
ννμ
-
- μ립μ±μ λ°λΌ : μ립 ννμ / μμ‘΄ ννμ
-
- μλ―Έμ λ°λΌ : μ€μ§ ννμ / νμ ννμ
-> μ€μ§ + μ립 ννμ : λͺ μ¬
KoNLPy, NLTK
μμ μμ