Сборщик - achugr/GoodsReview GitHub Wiki

Сбор информации с сайтов происходит посредством Web-Harvest, для чего выбранным (в основном критерий - количество отзывов) интернет-магазинам пишется свой config. На первых этапах разработки конфиги запускаются отдельно средствами Web-Harvest'a.

Пример работающего конфигурационного файла для Ситилинка: CitilinkReviewsConfig.xml

Результат работы: citilinkReviews.xml

В дальнейшем делаются дампы интересующих сайтов, чтобы не нагружать траффик (инструментарий - не принципиален) и работаем с ними. Проектируется и пишется Java-модуль для одновременной работы с многими конфигами, для него проводится тестирование. Далее (обсуждается) регулярность и реализация процесса обновления дампов сайтов.