3.1 Übersicht - mkappus1/DatenmanagementMTHS24 GitHub Wiki

Woche 3: Erstellung von Parallelkorpora (II) – Herunterladen von Websites.

1. Einleitung

In den bisherigen Lektionen haben wir mit bestehenden mehrsprachigen Korpora gearbeitet und vorhandene parallel in mehreren Sprachen vorliegenden einsprachige Dateien aligniert. Aber wie kommt man überhaupt an solche Daten und Dateien? Viele Websites bieten zwar parallele Inhalte in mehreren Sprachen an. Aber wie können diese Daten für unsere Zwecke aufbereitet werden? In dieser Woche werden wir lernen, wie man Webseiten für die Erstellung von parallelen und/oder vergleichbaren Korpora herunterlädt. Wir werden uns einfache Programme zum Herunterladen von Websites und zur Konvertierung der heruntergeladenen Dateien in Text ansehen. Wie wir sehen werden, können wir generische Programme verwenden oder spezielle Skripte für bestimmte Websites erstellen.

Hinweis: Der Prozess des Herunterladens einer grossen Website ist sehr langsam, da wir Seite für Seite herunterladen und nicht zu viele Anfragen hintereinander stellen können, da der Webserver unsere IP blockieren könnte und uns nicht erlauben könnte, mit dem Download fortzufahren. Daher kann es sein, dass wir nicht alle Übungen genauso wie vorgesehen ausführen können.

Das Herunterladen von Websites zur Erstellung paralleler Korpora kann sehr nützlich sein, aber Sie müssen die Qualität der Originaltexte und der Übersetzungen auf den Websites, die Sie herunterladen möchten, berücksichtigen. Es wird immer üblicher, mehrsprachige Inhalte durch maschinelle Übersetzung ohne Korrekturlesen zu veröffentlichen. Wenn wir Korpora verwenden, die von Websites mit minderwertigen Übersetzungen stammen, wird unser trainiertes neuronales Übersetzungssystem keine gute Qualität liefern können.

2. Empfohlene Lektüre

Diese Woche empfehle ich Ihnen die Lektüre folgender Texte:

Bubenhofer, Noah (2006-2024): Einführung in die Korpuslinguistik: Praktische Grundlagen und Werkzeuge. Elektronische Ressource: http://www.bubenhofer.com/korpuslinguistik/. Daraus ganz konkret die Abschnitte: Web als Korpus und aus dem Abschnitt Koprora erstellen die Unterabschnitte Daten beschaffen, Web: trafilatura, Web: Unix Tools.

3. Herunterladen von Websites mit generischen Algorithmen

3.1. Einleitung

In diesem Abschnitt werden wir uns eine Reihe allgemeiner Algorithmen zum Herunterladen von Websites und deren Konvertierung in Text ansehen. Es gibt mehrere Programme im Internet, aber ich schlage eines aus der Reihe der Programme des MTUOC-Projekts vor: MTUOC-web-downloader.

Später schauen wir uns ein ähnliches Programm namens Trafilatura an.

Die allgemeinen Schritte für das Herunterladen von Daten und Dateien mit diesem Programm sind:

Erstellung der Sitemap, einer Datei, die viele Links einer bestimmten Website enthält.
Herunterladen der Sitemap-Dateien
gleichzeitiges Suchen nach neuen Links innerhalb derselben Website, um diese herunterzuladen. Bei diesem Schritt ist Vorsicht geboten, da sich die Zahl der herunterzuladenden Dateien durch die in den Dateien vorhandenen Links enorm erhöhen kann und den Prozess in die Länge zieht.
Konvertierung der heruntergeladenen Dateien in Text

Sobald dies geschehen ist, können die Dateien aligniert werden, um unser paralleles Korpus zu erzeugen. Wir werden diesen Teil für einen späteren Abschnitt aufheben, obwohl wir viele der Dinge, die wir tun müssen, bereits aus der vorherigen Woche kennen.

In diesem Abschnitt werden wir versuchen, Dateien von der Website des Bundesamts für Gesundheit (BAG: https://www.bag.admin.ch/bag/de/home.html) herunterzuladen.

Bei dieser Gelegenheit sollten Sie auch über die Verwendung von im Internet veröffentlichten Inhalten nachdenken. Ich werde diese Debatte im Online-Treffen des Kurses ansprechen und bin an Ihrer Meinung interessiert.

Hinweis: Falls die Downloads mit den Daten des BAG nicht funktionieren sollten, empfehle ich zur Übung die Webseite https://medlineplus.gov mit Daten auf Englisch und Spanisch zu verwenden, die im ursprünglichen Kurs der Universitat Oberta de Catalunya als Beispiel gezeigt wurde. Die entsprechende Anleitung finden Sie Unter LINK

Denken Sie jedoch daran, dass Sie jede andere Website herunterladen können, die für die Übersetzungsmaschine, die Sie trainieren möchten, von Interesse sein könnte.

Laden Sie als erstes die benötigten Skripte über wget https://github.com/mtuoc/MTUOC-web-downloader/archive/refs/heads/main.zip oder curl https://github.com/mtuoc/MTUOC-web-downloader/archive/refs/heads/main.zip in ein geeignetes Verzeichnis herunter, entpacken Sie die Datei main.zip und installieren Sie die Voraussetzungen (z.B. über den Befehl python3 -m pip install -r requirements.txt).

Weiter zum Abschnitt 3.2. Die Sitemap erstellen