Willkommen - mkappus1/DatenmanagementMTHS24 GitHub Wiki

Herzlich Willkommen zum Kurs Datenmanagement für die MT

Im Rahmen dieses Kurses werden Methoden vorgestellt, die für das Sammeln, die Bereinigung und die Nutzung von Daten für das Training eines maschinellen Übersetzungssystems erforderlich sind. Der Kurs basiert auf einem Online-Seminar, das von der Universitat Oberta de Catalunya in Barcelona durchgeführt wurde.

Nach Abschluss des Kurses solltet ihr in der Lage sein, selbstständig Daten zu sammeln und aufzubereiten, sodass sie für das Training eines maschinellen Übersetzungssystems verwendet werden können. Im Vergleich zu bisherigen Kursen sind viele der Aufgaben eher technischer Natur. Die technischen Konzepte werden behutsam eingeführt, um etwaige Berührungsängste vor diesen Anwendungen und Konzepten abzubauen – sofern solche Ängste überhaupt vorhanden sind. Wahrscheinlich ist es sinnvoll, wenn ihr in kleinen Teams von 2 oder 3 Personen gemeinsam arbeitet, damit ihr euch gegenseitig unterstützen könnt. Die Materialien und Inhalte werden euch in der Regel online zur Verfügung gestellt. In der Kurszeit können spezifische Fragen und Probleme aufgegriffen und besprochen werde oder komplexere Konzepte vertieft werden. Es ist wichtig, dass ihr uns regelmässig Feedback zu den Inhalten und Aufgaben gebt, damit wir die Materialien schnell anpassen, verbessern oder ergänzen können.

Im Folgenden findet ihr eine Übersicht über die Themen, die behandelt werden sollen. Damit die Unterlagen, die für diesen Kurs erstellt und übersetzt wurden, auch in anderen Kursen genutzt werden können, wird in den Unterlagen die Sie-Form verwendet, also bitte nicht wundern :-)


Achtung: Da es sich um einen Kurs handelt, der in dieser Form zum ersten Mal durchgeführt wird, ist es möglich, dass sich der Ablauf verschiebt und nicht alle der hier aufgeführten Themen behandelt werden können.


  1. Verfügbare parallele Korpora. Verwendung des UNIX-Terminals und grundlegender Unix-Befehle. Grundlegende Vorverarbeitung von parallelen Korpora.
  2. Erstellung von parallelen Korpora (I): Automatisches Alignment von Dokumenten.
  3. Erstellung von parallelen Korpora (II): Herunterladen von Websites.
  4. Erstellung von parallelen Korpora (III): Alignment der heruntergeladenen Websites.
  5. Erstellung von vergleichbaren Korpora.
  6. Bereinigung der parallelen Korpora.
  7. Vorverarbeitung paralleler Korpora für das Training neuronaler Maschinenübersetzungsprogramme.
  8. Grundlegendes Training von NMT-Engines.
  9. Fortgeschrittenes Training für NMT-Engines
  10. Training mehrsprachiger NMT-Systeme
  11. Integration von maschinellen Übersetzungsmaschinen: der MTUOC-Server.
  12. Bewertung von NMT-Systemen mit Hilfe automatischer Metriken.

Viele der Materialien wurden mit der Erlaubnis des Kursleiters Antoni Oliver direkt aus dem obengenannten Online-Seminar übernommen und von uns mit Hilfe maschineller Übersetzungssysteme ins Deutsche übersetzt. Daher werden wir euch zusätzlich zu den fertigen Materialien auch noch bearbeitbare Versionen zur Verfügung stellen, in denen ihr Änderungen, Kommentare oder Ergänzungen anbringen könnt.