Webscapring: Exkurs ‐ Trafilatura - mkappus1/datenmanagement-mt-25 GitHub Wiki
🔍 Was ist trafilatura?
Trafilatura ist eine Python-Bibliothek, die sich auf die Extraktion von lesenswertem Text aus Webseiten spezialisiert. Im Unterschied zu allgemeinen Scraping-Tools wie BeautifulSoup oder Scrapy liegt der Fokus hier nicht auf dem Sammeln strukturierter Daten, sondern auf der qualitativen Textgewinnung – also dem, was für Korpora oder linguistische Analysen zählt.
✅ Vorteile von trafilatura
- Automatische Erkennung des Hauptinhalts (Artikeltext vs. Navigation/Kommentare/Werbung)
- Entfernt HTML, Boilerplate, Werbung – der Text ist sofort bereinigbar
- Gut für Nachrichtenartikel, Blogposts, Webseiten mit viel Text
- Integrierte URL-Downloader: Man kann ganze Sitemaps oder Feeds (RSS/Atom) abgreifen
- Metadaten-Extraktion (Publikationsdatum, Autor, Titel etc.)
- Leichtgewichtig, keine Browseremulation nötig (also kein Selenium etc.)
🐍 Beispielcode
Ein kleiner Einstieg:
import trafilatura
url = 'https://www.example.com/ein-artikel'
downloaded = trafilatura.fetch_url(url)
if downloaded:
result = trafilatura.extract(downloaded)
print(result)
Optional mit mehr Kontrolle:
result = trafilatura.extract(
downloaded,
include_comments=False,
include_tables=False,
no_fallback=True, # nur den Hauptinhalt, keine Fallbacks
output_format='txt' # alternativ: 'xml', 'json'
)
📦 Installation
pip install trafilatura
Optional auch:
pip install trafilatura[all]
(damit auch die erweiterten Features wie sitemaps, feeds etc. funktionieren)
**trafilatura ist ideal, wenn es darum geht:
- Webseiten als Korpustextquellen zu verwenden
- Textdaten aus journalistischen Seiten systematisch zu extrahieren
- saubere Inputdaten für MT oder Translation-Memory-Erstellung zu sammeln