Webscapring: Exkurs ‐ Trafilatura - mkappus1/datenmanagement-mt-25 GitHub Wiki

🔍 Was ist trafilatura?

Trafilatura ist eine Python-Bibliothek, die sich auf die Extraktion von lesenswertem Text aus Webseiten spezialisiert. Im Unterschied zu allgemeinen Scraping-Tools wie BeautifulSoup oder Scrapy liegt der Fokus hier nicht auf dem Sammeln strukturierter Daten, sondern auf der qualitativen Textgewinnung – also dem, was für Korpora oder linguistische Analysen zählt.

✅ Vorteile von trafilatura

Automatische Erkennung des Hauptinhalts (Artikeltext vs. Navigation/Kommentare/Werbung)
Entfernt HTML, Boilerplate, Werbung – der Text ist sofort bereinigbar
Gut für Nachrichtenartikel, Blogposts, Webseiten mit viel Text
Integrierte URL-Downloader: Man kann ganze Sitemaps oder Feeds (RSS/Atom) abgreifen
Metadaten-Extraktion (Publikationsdatum, Autor, Titel etc.)
Leichtgewichtig, keine Browseremulation nötig (also kein Selenium etc.)

🐍 Beispielcode

Ein kleiner Einstieg:

import trafilatura

url = 'https://www.example.com/ein-artikel'
downloaded = trafilatura.fetch_url(url)
if downloaded:
    result = trafilatura.extract(downloaded)
    print(result)

Optional mit mehr Kontrolle:

result = trafilatura.extract(
    downloaded,
    include_comments=False,
    include_tables=False,
    no_fallback=True,   # nur den Hauptinhalt, keine Fallbacks
    output_format='txt' # alternativ: 'xml', 'json'
)

📦 Installation

pip install trafilatura

Optional auch:

pip install trafilatura[all]

(damit auch die erweiterten Features wie sitemaps, feeds etc. funktionieren)

**trafilatura ist ideal, wenn es darum geht:

Webseiten als Korpustextquellen zu verwenden
Textdaten aus journalistischen Seiten systematisch zu extrahieren
saubere Inputdaten für MT oder Translation-Memory-Erstellung zu sammeln