Про данные - selivanov-as/ml-text-highlights GitHub Wiki

Кое-какие датасеты имэилов есть тут, хотя они в основном неразмеченные.

Для тестирования саммари моделей, даже тех, которые обучаются без учителя, хочется иметь размеченный датасет с саммари. Есть BC3 датасет с экстрактным и абстрактным саммари и мета информацией. Особенность: саммари - это предложения, а не ключевые слова. Статья про него.