Sentiment Analysis - newlife-js/Wiki GitHub Wiki
by ์นด์ด์คํธ ์ฐจ๋ฏธ์ ๊ต์๋
๊ฐ์ฑ ๋ถ์(Sentiment Analysis)
Sentiment = Feelings(Attitude, Emotion, Opinion)
์ผ๋ฐ์ ์ผ๋ก binary opposition ์ฌ์ฉ(์ฐฌ์ฑ/๋ฐ๋, ํธ/๋ถํธ, good/bad)
-> sentiment content, positive/negative valence(๊ธ/๋ถ์ ์ ๋)
โ ์ฌ์ฉ ์์
- Consumer information: product review
- Marketing: consumer attitudes, trends
- Politics: predict votes and view
- Social: find like-minded individuals or communities
์ข ๋ฅ
- Aspect-based SA
- Multimodal SA
- Contextual SA
- Sentiment Reasoning
- Domain Adaptation
- Multilingual SA
- Sarcasm Analysis
- Sentiment-aware NLG
- Bias in SA Systems
Topic modeling
๋ฌธ์์ ์จ๊ฒจ์ง topic์ ์ฐพ์๋ด๋ ๊ฒ
Term-document matrix
๋ฌธ์๋ณ๋ก term์ occurence๋ฅผ matrix๋ก ํํํ ๊ฒ
occurence๊ฐ ๋์ term์ ์ฃผ์ ๋ก ์ ํ
๋ค๋ฅธ ์๋ฏธ๋ฅผ ๊ฐ์ง ๋จ์ด(๋ค์์ด)์ ๊ฒฝ์ฐ ์๋ฏธ๊ฐ ๋ค๋ฅด๊ฒ ์ฐ์ฌ๋ ๊ฐ์ ์๋ฏธ๋ก ์๊ฐ
-> latent meaning์ ์ด๋์ด๋ด๋ ๋ฐฉ๋ฒ์ด ํ์
Latent Semantic Analysis(LSA)
Documnet x Term(TF-IDF) matrix์ decomposition(SVD)์ ์ฌ์ฉ
U: document-topic matrix
V^T: topic-term matrix
๋จ์ : embedding์ ํด์ํ๊ธฐ ์ด๋ ค์(์์๊ฐ ์ด๋ค ์๋ฏธ?), ํฐ ๋ฌธ์ set ํ์, ์ ๊ท๋ถํฌ ๊ฐ์ ์ ๋ง์กฑํ์ง ์์
Probabilistic LSA(pLSA)
term์ ๋ฑ์ฅ ํ์๊ฐ ์๋ ๋ฑ์ฅ ํ๋ฅ ๊ธฐ๋ฐ
(D: document, Z: topic, W: word)
Latent Dirichlet Allocation(LDA)
Dirichlet Distribution: ๊ฐ vector์ ๋ชจ๋ ์์๊ฐ ์์์ด๋ฉด์ sum์ด 1์ธ k(topic์ ์)์ฐจ์ vector์ ํ๋ฅ ๋ถํฌ
Assumptions
- ๋ฌธ์๋ค์ ํ ํฝ๋ค์ ํผํฉ์ผ๋ก ๊ตฌ์ฑ
- ํ ํฝ๋ค์ ํ๋ฅ ๋ถํฌ์ ๊ธฐ๋ฐํ์ฌ ๋จ์ด๋ค์ ์์ฑ
Evaluation of Topic modeling
- Log Likelihood
- Perplexity
- Topic Coherence: ๊ฐ์ topic์์ ํ๋ฅ ์ด ๋์ ๋จ์ด๋ค์ด ์๋ก ์ ์ฌํ์ง
Deep Learning Model
ProdLDA
VAE์ ๊ฐ์ ๋ชจํฐ๋ธ๋ก topic์ modelingํ๋ ๋ฐฉ๋ฒ
document(bag of words)๋ฅผ topic(embedding)์ผ๋ก encodingํ๊ณ , topic์ ๋ค์ document๋ก decodingํด์
input๊ณผ output์ ์ฐจ์ด๊ฐ ์๋๋ก ํ๋ topic์ ๋ง๋ค๋๋ก ํ์ต