Woche 2 - mkappus1/DatenmanagementMTHS24 GitHub Wiki

Einführung


Im letzten Block haben wir uns mit der Befehlszeile des UNIX/Linux-Betriebssystems vertraut gemacht. Wir haben mit Hilfe der in UNIX/Linux verfügbaren Werkzeuge über die Befehlszeile bereits vorhandene zweisprachige Corpora heruntergeladen, bereinigt und zusammengefügt.


In dieser Woche werden wir uns mit der Erstellung unserer eigenen parallelen Korpora durch automatisches Dokument-Alignment befassen. Vorab werden wir die Option diskutieren, wie wir unsere Translation Memorys in tabellarische Textdateien konvertieren können, um sie für das Training von maschinellen Übersetzungsprogrammen verwenden zu können.

Es ist sehr wichtig, dass Sie mit den Techniken des automatischen Dokument-Alignments vertraut sind und deren Anwendung beherrschen. Es existieren einige kommerzielle Programme (meist Komponenten von CAT-Tools), die das Alignment von Dokumenten ermöglichen, jedoch sind diese nicht vollautomatisch und erfordern manuelle Eingriffe, um das Alignment anzupassen und zu korrigieren. Dieses halbautomatische Alignment kann von Nutzen sein, wenn nur eine begrenzte Anzahl von Dokumenten aligniert werden muss. In manchen Fällen müssen jedoch Hunderte oder sogar Tausende von Dokumenten abgeglichen werden, um parallele Korpora zu erstellen. In solchen Fällen ist das halbautomatische Alignment keine geeignete Option.

Wir werden sehen, dass Systeme zur automatischen Alignment von Dokumenten in der Lage sind, uns zusammen mit den alignierten Segmenten einen Index zu liefern, der die Qualität des Alignments angibt. So können wir die Segmente nach der gewünschten Qualität auswählen.

Empfohlene Lektüre

Ich empfehle die Lektüre dieses Artikels, der erst nach der Veröffentlichung von Hunalign erschienen ist, um zu zeigen, dass die automatische Alignierung von Texten immer noch Gegenstand der Forschung ist:

Vecalign: Improved Sentence Alignment in Linear Time and Space (Thompson & Koehn, EMNLP-IJCNLP 2019).

2. Vorarbeiten

3. Konvertieren von TMX-Dateien in eine tabellarische Textdatei

4. Automatisches Alignment von (zwei) Dokumenten mit LF-Aligner

5. Automatisches Alignment von Dokumenten mit hunalign