Замеры производительности обработки html - PetrovaDaria/software-glitches GitHub Wiki

Сравнить два способа обработки новостей 1) без newspaper, 2) c newspaper

Время поиска
Сколько текстов найдено
Процент валидных текстов из найденных

Перевод текста в массив слов

Специфическая часть обработки:

1) Обработка без newspaper:

удалить теги

2) Обработка с newspaper:

парсить библиотекой newspaper - выделяет заголовок и текст новости
объединить заголовок и текст вместе

Общая часть обработки после специфической:

удалить знаки препинания + \n, \t, \s
разделить по пробелам на слова
удалить пустые слова

Поиск нужных слов в массивах

Есть список слов, обозначающих software, и список слов, обознающих баги.

слова-software	слова-баги
software	glitch
hardware	bug
technology	outage
program	failure
algorithm	issue
package	malfunction
technical	defect
system	error
computer	blunder
application	problem
device	mistake
fix
update

Ищем слова в массиве. Если в одном тексте есть слова обеих категорий, значит, предполагаем, что он нам подходит. Не смотрим, насколько близко друг к другу стоят найденные слова.

Статистика

На примере веб-архива CC-NEWS-20160928074341-00001_ENG.warc.gz были произведены замеры времени работы обоих подходов. Всего было обработано 517 текстов. Из них 505 смогли распарситься библиотекой warcio.

Суммарное время перевода текста в массив слов в секундах

без newspaper	с newspaper
5,222	159.738

Медиана и максимум перевода текста в массив слов в секундах

-	без newspaper	c newspaper
медиана	0,010	0,214
максимум	0,051	5,909

Суммарное время нахождения слов из списков в массивах в секундах

без newspaper	с newspaper
0.610	0.0749

Время перевода текста в массив без newspaper всегда быстрее, чем с newspaper. В среднем разница подходов для одного и того же текста составляет 0.306 секунды, что в итоге на 500ах текстах приводит к разнице в 155 секунд.

Время нахождения слов из списков в массивах почти не влияет на суммарное время обработки.

Количество найденных текстов

Стоит заметить, что способ без newspaper всегда будет находить больше текстов, чем способ с newspaper. При этом всё множество текстов, найденных вторым способом, будет содержаться в множестве текстов, найденных первым образом.

без newspaper	с newspaper
127	23

Индексы найденных текстов: [15, 20, 42, 56, 60, 67, 69, 77, 112, 133, 147, 229, 233, 261, 277, 280, 289, 396, 402, 477, 478, 484, 511]

Из найденных новостей 3 о технологиях [77, 133, 484], из них 1 отвечает тематике software glitches [484].