Про данные - selivanov-as/ml-text-highlights GitHub Wiki
Кое-какие датасеты имэилов есть тут, хотя они в основном неразмеченные.
Для тестирования саммари моделей, даже тех, которые обучаются без учителя, хочется иметь размеченный датасет с саммари. Есть BC3 датасет с экстрактным и абстрактным саммари и мета информацией. Особенность: саммари - это предложения, а не ключевые слова. Статья про него.