Как сохранить только нужные тексты - PetrovaDaria/software-glitches GitHub Wiki

Основываясь на результатах замеров производительности обработки записей предлагается использовать следующую стратегию:

Обработать все записи из веб-архива простым способом. Получить из них словари нужных слов и количества их вхождений. Отсортировать записи по словарям нужных слов. Выбрать только подходящие по условиям. Обрабатывать их более тщательно библиотекой newspaper/spacy.