Home - mkappus1/DatenmanagementMTHS24 GitHub Wiki

Dies ist das Wiki des Kurses Datenmanagement für die MT zum Training neuronaler Übersetzungsysteme, an der Zürcher Hochschule für Angewandte Wissenschaften. Dabei werden alle notwendigen Schritte zum Training eines NMT-Systems besprochen: von der Korpussammlung und Vorverarbeitung bis hin zum Training, der Bewertung und der Integration der Engines in computergestützte Übersetzungsprogramme (CAT-Tools).

Der Kurs ist in wöchentliche Sitzungen gegliedert. Die Bearbeitung der Materialien kann zwischen 2 und 3 Stunden in Anspruch nehmen. Am Ende des Seminars werden die Teilnehmer/innen die Möglichkeit haben, ein echtes System zu trainieren und zu bewerten. Die Teilnehmer/innen können das Sprachenpaar und das Thema ihrer Wahl wählen oder mit den vorgeschlagenen Beispielen arbeiten.

  1. Block: Verfügbare parallele Korpora. Verwendung des Terminals und grundlegender Unix-Anweisungen. Grundlegende Vorverarbeitung von parallelen Korpora.

  2. Block: Erstellung von parallelen Korpora (I). Automatische Alignierung von Dokumenten

  3. Block: Erstellung von parallelen Korpora (II): Herunterladen von Websites.

  4. Block: Erstellung paralleler Korpora (III): Alignment der heruntergeladenen Websites

  5. Block Wikipedia (freiwillig)

  6. Block: Korpusbereinigung

  7. Block: Vorverarbeitung paralleler Korpora für das Training neuronaler Maschinenübersetzungssysteme