Обработчик - achugr/GoodsReview GitHub Wiki
Примерный план работы блока "обработчик"
Собранные отзывы о товарах должны быть помещены в базу, на данном этапе появляется
Задача № 1
Производить сравнение наименования товара с нашим каталогом товаров, в случае соответствия шаблону - комментарий помещается в базу и привязывается к определенному товару из каталога, если же по каким-то причинам наименование товара не попадает ни под один из шаблонов, то, либо происходит "ручная обработка", либо осуществляется добавление в базу нового товара. Далее, необходимо выделить тезисы, а это
Задача № 2
Необходимо достать из комментариев тезисы и отсортировать их по значимости. Тут несколько подзадач, т.к. нужно реализовать несколько алгоритмов ранжирования, чтобы результат как можно лучше отражал действительность. На самом деле, тезисов может быть очень много, но не все они могут соответствовать действительности, например, спамеры захотят нам нам помешать, вот и
Задача № 3
Разобраться с алгоритмами анализа комментариев на предмет спама
Документация по блоку обработчик
-
public abstract class Review
Класс для представления самого простого варианта отзыва, содержит только полеprivate String comment
-
public class СitilinkReview extends Review
Класс для представления отзыва с ситилинка, наследуется от класса Review, содержит поляprivate int rate; private String description; private String goodAspect; private String badAspect; private int helpfulnessYes; private int helpfulnessNo;
-
public class ListOfReviews
Класс для представления набора отзывов об одном товаре -
public class KGrams
В классе реализован метод анализа последовательности символов на схожесть методом k-grams -
public class FrequencyAnalyzer
Класс реализует частотный словарь, позволяющий на базовом уровне сделать выделение основных тезисов из отзывов.