Latent Dirichlet Allocation - clover3/Roland GitHub Wiki

Latent Dirichlet Allocation

LDA λŠ” μ–΄λ–€ λ¬Έμ„œκ°€ μ£Όμ–΄μ‘Œμ„λ•Œ λ¬Έμ„œλ‚΄μ— 잠재된 μ£Όμ œμ— λŒ€ν•œ ν™•λ₯  λͺ¨ν˜•이닀.

예λ₯Ό λ“€μ–΄μ„œ ν•œ LDA λͺ¨λΈμ΄ '고양이 κ΄€λ ¨' κ³Ό 'κ°•μ•„μ§€ κ΄€λ ¨' 으둜 λΆ„λ₯˜λ  수 μžˆλŠ” 주제λ₯Ό κ°–λŠ”λ‹€κ³  ν•˜μž. 각 μ£Όμ œλŠ” λ‹€μ–‘ν•œ 단어λ₯Ό 생성할 κ°€λŠ₯성이 μžˆλ‹€. 예λ₯Ό λ“€μ–΄, '우유','μ•Όμ˜Ή','λƒ₯이' λ“±μ˜ '고양이 κ΄€λ ¨' 단어λ₯Ό λ§Œλ“€ 수 μžˆλ‹€. 같은 λ°©μ‹μœΌλ‘œ 'κ°•μ•„μ§€ κ΄€λ ¨'의 경우 '개','멍멍','λΌˆλ‹€κ·€' λ“±μ˜ 단어가 ν™•λ₯ μ΄ 높을 수 μžˆλ‹€.

Bag-of-word

LDA μ—μ„œλŠ” λ‹¨μ–΄μ˜ μˆœμ„œλ₯Ό κ³ λ €ν•˜μ§€ μ•ŠλŠ” Bag-Of-Word λͺ¨λΈμ„ μ‚¬μš©ν•œλ‹€.