Анализ данных - pritykovskaya/UniRank GitHub Wiki
Классификация отзывов на положительные, отрицательные и нейтральные
-
#Наивный алгоритм На основе простеммированных словарей хороших и плохих слов, где каждое слово имеет свой положительный или отрицательный вес. Предложению приписывается положительная или отрицательная оценка, равная сумме оценок всех слов.
-
#Thumbs up/down
Из текста при помощи программы MyStem извлекаются паттерны, например: наречие + глагол или наречие + прилагательное. Далее подсчитываеся SO(semantic orientation) каждого паттерна. Паттерны есть фичи, SO каждого паттерна есть значение фичи. На основе вектора из фич для каждого отзыва, производится его классификация.
Больше подробностей статье (http://dl.dropbox.com/u/17003681/thumbs_up_down.pdf).
- #SVM
Векторизуем признаки. Первый способ: за фичи берем слова из словаря хороших и плохих слов. Второй: все слова, кроме тех, которые короче 4-х символов и встречаются реже 2-х раз.
Далее используем SVM с радиальным ядром и gamma = 0.6.
Строим SVM один против всех, далее используем систему голосов.