Сборщик - achugr/GoodsReview GitHub Wiki
Сбор информации с сайтов происходит посредством Web-Harvest, для чего выбранным (в основном критерий - количество отзывов) интернет-магазинам пишется свой config. На первых этапах разработки конфиги запускаются отдельно средствами Web-Harvest'a.
Пример работающего конфигурационного файла для Ситилинка: CitilinkReviewsConfig.xml
Результат работы: citilinkReviews.xml
В дальнейшем делаются дампы интересующих сайтов, чтобы не нагружать траффик (инструментарий - не принципиален) и работаем с ними. Проектируется и пишется Java-модуль для одновременной работы с многими конфигами, для него проводится тестирование. Далее (обсуждается) регулярность и реализация процесса обновления дампов сайтов.