Как сохранить только нужные тексты - PetrovaDaria/software-glitches GitHub Wiki
Основываясь на результатах замеров производительности обработки записей предлагается использовать следующую стратегию:
Обработать все записи из веб-архива простым способом. Получить из них словари нужных слов и количества их вхождений. Отсортировать записи по словарям нужных слов. Выбрать только подходящие по условиям. Обрабатывать их более тщательно библиотекой newspaper/spacy.