Анализ данных - pritykovskaya/UniRank GitHub Wiki

Классификация отзывов на положительные, отрицательные и нейтральные

#Наивный алгоритм На основе простеммированных словарей хороших и плохих слов, где каждое слово имеет свой положительный или отрицательный вес. Предложению приписывается положительная или отрицательная оценка, равная сумме оценок всех слов.
#Thumbs up/down

Из текста при помощи программы MyStem извлекаются паттерны, например: наречие + глагол или наречие + прилагательное. Далее подсчитываеся SO(semantic orientation) каждого паттерна. Паттерны есть фичи, SO каждого паттерна есть значение фичи. На основе вектора из фич для каждого отзыва, производится его классификация.

Больше подробностей статье (http://dl.dropbox.com/u/17003681/thumbs_up_down.pdf).

#SVM

Векторизуем признаки. Первый способ: за фичи берем слова из словаря хороших и плохих слов. Второй: все слова, кроме тех, которые короче 4-х символов и встречаются реже 2-х раз.

Далее используем SVM с радиальным ядром и gamma = 0.6.

Строим SVM один против всех, далее используем систему голосов.