2.5 Alignment mit hunalign - mkappus1/DatenmanagementMTHS24 GitHub Wiki

2.5. Automatisches Alignment von Dokumenten mit hunalign

2.5.a hunaling Herunterladen, Entpacken und Kompilieren

Die Quelldateien von/für hunlign können von der folgenden Adresse heruntergeladen werden: ftp://ftp.mokk.bme.hu/Hunglish/src/hunalign/latest/hunalign-1.1.tgz

Das geht mit dem bereits bekannten Tool wget: wget ftp://ftp.mokk.bme.hu/Hunglish/src/hunalign/latest/hunalign-1.1.tgz

grafik

Alternativ kann auch das Tool curl verwendet werden: curl -O ftp://ftp.mokk.bme.hu/Hunglish/src/hunalign/latest/hunalign-1.1.tgz

Die heruntergeladene Datei kann nun mit dem Werkzeug tar entpackt werden.

tar -xzvf hunalign-1.1.tgz

Die Bedeutung der Optionen:

-x: Entpackt die Datei.
-z: Gibt an, dass die Datei mit gzip komprimiert wurde (was bei .tgz-Dateien der Fall ist).
-v: Zeigt den Fortschritt beim Entpacken (optional, für "verbose").
-f: Gibt den Dateinamen an, der entpackt werden soll.

grafik

2.5.b Allgemeine Schritte des Alignments von Dokumenten

Im vorigen Abschnitt haben wir gelernt, wie man LF-Aligner verwendet, ein Programm, das auf dem bekannten Programm hunalign basiert. In diesem Abschnitt werden wir lernen, wie wir hunalign direkt verwenden können, was es uns ermöglicht, eine grosse Anzahl von Dokumenten in einem einzigen Schritt zu alignieren. Im Gegensatz zu LF-Aligner aligniert hunalign jedoch nur die Dokumente. Darüberhinaus gibt es jedoch eine Reihe allgemeiner Schritte, die wir selbst durchführen müssen. Die allgemeinen Schritte für das Alignment von Dokumenten sind:

Konvertierung der Dateien in Text.
Segmentierung der Textdateien. Im Allgemeinen möchten wir ein Alignment auf Satz- oder Segmentebene durchführen. Daher müssen wir den Text des Dokuments, der normalerweise in Absätzen organisiert ist, in Segmente oder Sätze unterteilen.
Das Alignment selbst, das wir mit hunalign durchführen werden. Das Programm verbindet die Segmente der Originaldatei mit den Segmenten der übersetzten Datei.
Auswahl der Segmente auf der Grundlage eines von hunalign für jedes Segment bereitgestellten Qualitätsindexes.
Konvertierung des Alignments in das gewünschte Format. Am Ende des Prozesses haben wir eine tabellarische Textdatei, die wir eventuell in ein anderes Format konvertieren müssen, z.B. TMX.

2.5.c Alignment von zwei Dokumenten mit hunalign

In diesem Schritt können Sie beliebige Dateien alignieren, die Sie für geeignet halten. Zu Testzwecken empfehle ich jedoch die gleichen (Word-)Dateien zu verwenden, die wir mit LF-Aligner aligniert haben. Damit die Skripte funktionieren muss die "RAW" Version der Word-Dateien heruntergeladen werden, die auch im Link referenziert ist.

Erstellen Sie eine neues Verzeichnis, laden Sie die "raw" Versionen der beiden für Sie relevanten Word-Dateien herunter und legen Sie sie dort ab.

Alternativ geht das mit dem Befehl

wget https://github.com/mkappus1/DatenmanagementMTHS24/raw/refs/heads/main/Woche%202/Skripte/DATEINAME wobei DATEINAME für den Namen der Datei in der entsprechenden Sprache steht. Also z.B.:

wget https://github.com/mkappus1/DatenmanagementMTHS24/raw/refs/heads/main/Woche%202/Skripte/N2130755-it.docx für die italienische Datei.

Schritt 1: Konvertierung der Dateien in Text

Diesen ersten Schritt können Sie mit einem Programm Ihrer Wahl durchführen. Hier sehen wir uns ein Programm aus dem MTUOC-Toolkit an, mit dem Sie eine grosse Anzahl von Formaten in Text umwandeln können: MTUOC-any2text. Von diesem Skript finden Sie auf der Seite https://github.com/mtuoc/MTUOC-any2text 4 Versionen (jeweils mit der Dateiendung .py: grafik

Am einfachsten lassen sich diese Skripte über den folgenden Befehl (zusammen mit der Readme-Datei und der Datei mit der Liste der Voraussetzungen für Python requirements.txt) Befehl herunterladen: git clone https://github.com/mtuoc/MTUOC-any2text grafik

Was steht eigentlich in der Datei requirements.txt ? Darin sind nur diese beiden auf den ersten Blick kryptischen Textzeilen enthalten. grafik

Die beiden Textzeilen enthalten die Namen von zwei sogenannten Python-Bibliotheken, die den Skripten, die wir verwenden bestimmte vordefinierte Funktionen bereit stellen. Was hat es genau mit diesen Bibliotheken auf sich? Den Versuch einer Erklärung finden Sie hier

Alle Einzelheiten zur Verwendung dieses Tools (dieser Skriptsammlung zu Konvertierung in das Textformat) finden Sie in seinem Wiki bei der Universitat Oberta de Catalunya, daher werde ich hier einfach die Anweisungen wiedergeben, die wir zur Durchführung der Konvertierung verwenden müssen. Bevor Sie die Programme ausführen, vergessen Sie nicht, die Voraussetzungen zu installieren (Stichwort requirements.txt Datei). In einem Verzeichnis sollten jetzt also folgende Dateien und Unterordner liegen:

grafik

Das Verzeichnis mit den Skripten und die beiden Word-Dateien. Verschieben Sie die beiden Word-Dateien mit dem Befehl mv *.docx MTUOC-any2text/ (verschiebt alle Dateien mit der Dateiendung .docx in das angegeben Zielverzeichnis) in das Verzeichnis mit den Skripten. Wechseln Sie in das Verzeichnis mit den Skripten.

grafik

Um die Datei N2130752-eng.docx in Text zu konvertieren, geben Sie im Terminal ein:

python3 MTUOC-any2text.py -i N2130752-eng.docx

Und um die Datei _N2130755-de.docx _zu konvertieren, schreiben Sie:

python3 MTUOC-any2text.py -i N2130755-de.docx

Und um die Datei _N2130755-it.docx _zu konvertieren, schreiben Sie:

python3 MTUOC-any2text.py -i N2130755-it.docx

Sie werden sehen, dass für die docx-Dateien je eine Textdatei erstellt wurden, bei der die Dateierweiterung .txt an den ursprünglichen Dateinamen angehängt wurde.

grafik

Die entstandenen Text-Dateien sehen so oder so ähnlich aus:

grafik

Bisher sind die Dateien nach Absätzen segmentiert, für ein Alignment auf Satzebene benötigen wir aber eine Segmentierung auf Satzebene.

Schritt 2: Segmentierung der Dateien

Auch dieser Schritt kann mit vielen Programmen durchgeführt werden. Wir verwenden hier das Skript https://github.com/mtuoc/MTUOC-segmenter. Das kann über den Befehl git clone https://github.com/mtuoc/MTUOC-segmenter heruntergeladen werden.

grafik

Es handelt sich um einen Segmentierer, der auf einer SRX-Datei (Segmentation Rules eXchange](https://en.wikipedia.org/wiki/Segmentation_Rules_eXchange)) basiert. Eine Datei segment.srx wird mit dem Programm mitgeliefert, aber Sie können auch jede andere SRX-Datei verwenden. Öffnen Sie die Datei segment.srx mit einem geeigneten Texteditor und sehen Sie sich den Inhalt an. Sie werden sehen, dass es eine Reihe von Sprachen gibt, für die spezifische Regeln gelten. Wenn Ihre Arbeitssprachen nicht in dieser srx-Datei enthalten sind (Englisch, Deutsch und Italienisch sind in der Datei vorhanden), können Sie die generische Sprache verwenden, eine andere srx-Datei suchen oder den Abschnitt Mehr über Segmentierung weiter unten in diesem Abschnitt lesen.

Die Erklärung des Programms finden Sie in seinem Wiki, daher stellen wir hier nur die notwendigen Befehle vor. Vergessen Sie auch hier nicht (wie bereits beschrieben), die Voraussetzungen (über die Datei requirements.txt) zu installieren. Bevor Sie mit der Segmentierung beginnen, sollten Sie sicherstellen, dass das Skript für die Segmentierung MTUOC-segmenter.py und die vorher erstellten .txt Dateien im selben Verzeichnis liegen (oder Sie passen den Pfad für die Dateien beim Aufruf des Skripts entsprechend an).

Um die Datei _N2130752-eng.docx.txt _zu segmentieren, geben wir im Terminal ein:

python3 MTUOC-segmenter.py -i N2130752-eng.docx.txt -o N2130752-seg-eng.docx.txt -s segment.srx -l English -p

Und um die Datei N2130755-de.docx.txt zu segmentieren, schreiben wir:

python3 MTUOC-segmenter.py -i N2130755-de.docx.txt -o N2130755-seg-de.docx.txt -s segment.srx -l German -p

Und um die Datei N2130755-it.docx.txt zu segmentieren, schreiben wir:

python3 MTUOC-segmenter.py -i N2130755-it.docx.txt -o N2130755-seg-it.docx.txt -s segment.srx -l Italian -p

grafik Sehen Sie sich die segmentierten Dateien an (mit dem Befehl more oder indem Sie sie in einem Texteditor öffnen). Wie Sie sehen, haben wir die Option -p verwendet, damit bei jedem Absatzumbruch eine Absatzmarke hinzugefügt wird. Diese Information ist später bei der Verwendung von hunalign nützlich.

Schritt 3. Alignment - BITTE NOCH NICHT BEARBEITEN

Auf der _hunalign-Website finden Sie ausführliche Informationen über die Verwendung dieses Tools. Sie können die hunalign-Binärdateien für Linux, Windows und Mac auch von https://github.com/mtuoc/hunalign herunterladen. Diese Dateien sind:

Für Linux: hunalign
Für Windows: hunalign.exe und ausserdem werden msvcp100.dll und msvcr100.dll benötigt.
Für Mac: hunalignMAC (eventuell müssen Sie den Namen in hunalign ändern oder daran denken, das Programm mit dem richtigen Namen auszuführen).

Zum Alignment mit hunalign benötigen Sie ein zweisprachiges Wörterbuch im richtigen Format. Sie können Wörterbücher aus dem Repository https://github.com/aoliverg/hunapertium beziehen, selbst welche erstellen oder das Programm MUSE2Hunalign.py verwenden, das mit MTUOC-aligner verteilt wird. Obwohl sich die Genauigkeit des Alignments mit der Verwendung von Wörterbüchern verbessert, können Sie auch mit einer leeren Datei arbeiten, wenn Sie keine Wörterbücher für das Arbeitssprachpaar haben (das leere Wörterbuch null.dic wird mit MTUOC-aligner verteilt). Unter Unix können Sie ein leeres Wörterbuch erstellen, indem Sie eingeben:

touch null.dic

Bei den Dateien für diese Woche finden Sie auch das Wörterbuch hunapertium-en-de-de.dic (??????)

./hunalign hunapertium-en-en-es.dic N2130752-seg-eng.docx.txt N2130755-seg-spa.docx.txt -text -utf -realign > alignment-eng-spa.txt

In der Hunalign-Dokumentation finden Sie die Erklärung zu jedem dieser Parameter. In alinacion-eng-spa.txt finden Sie nun das Ergebnis des automatischen Alignments. Unten sehen wir einen Ausschnitt davon:

<p> <p> 0
I.	I. 1.8
Bestandsaufnahme der wichtigsten globalen Verpflichtungen im Bereich Gesundheit und Außenpolitik Bestandsaufnahme der wichtigsten globalen Verpflichtungen im Bereich Gesundheit und Außenpolitik 1.09821`
<p> <p> 0

Absatzmarken werden an Absatzmarken ausgerichtet, haben aber einen Index von 0, da diese Ausrichtung für uns nicht funktioniert. In den verbleibenden Segmenten haben wir das englische Segment, Tab, das spanische Segment, Tab und den Zuverlässigkeitsindex. Schritt 4: Auswählen der Segmente

Jetzt wollen wir die Segmentpaare mit einer Reliabilität oberhalb einer bestimmten Grenze, z.B. 0, auswählen. Dies können Sie mit dem Programm selectAlignmentsFile.py tun, das mit MTUOC-aligner verteilt wird. Die Option -h zeigt Ihnen die Hilfe an. Wir können schreiben

python3 selectAlignmentsFile.py -i alignment-eng-spa.txt -o alignment-selected-eng-spa.txt -c 0

Und nur Segmentpaare mit einem Zuverlässigkeitsindex größer als 0 werden ausgewählt. Betrachten Sie das Ergebnis mit mehr oder öffnen Sie es in einem Texteditor. Schritt 5: Konvertierung in das endgültige Format

Jetzt haben wir unseren parallelen Korpus in einem tabellarischen Textformat, das sich bereits gut für das Motorentraining eignet. Dieser Korpus kann wiederholte Segmente enthalten. Denken Sie daran, dass wir diese mit dem folgenden Befehl entfernen können:

cat align-selected-eng-spa.txt | sort | uniq | shuf > align-unic-eng-spa.txt

Wenn wir diese eindeutigen Segmente in das Moses-Format umwandeln wollen, können wir das tun:

cut -f 1 ausrichten-unic-eng-spa.txt > alienacion-unic.en-en.en cut -f 2 alineacion-unic-eng-spa.txt > alineacion-unic.en-en-es.en

Nicht für Trainingsmaschinen, aber vielleicht für die Verwendung dieses Parallelkorpus als Übersetzungsspeicher in unseren computergestützten Übersetzungswerkzeugen sind wir daran interessiert, das Alignment ins TMX-Format zu konvertieren. Dazu können wir das Programm MTUOC-tabtxt2TMX.py verwenden. Dieses Programm zeigt die Hilfe mit der Option -h an:

python3 MTUOC-tabtxt2TMX.py -h Verwendung: MTUOC-tabtxt2TMX.py [-h] -i INPUT -o FSORTID -s L1 -t L2

MTUOC-tabtxt2TMX: Ein Skript zur Konvertierung eines parallelen Korpus in tabellarischem Text in eine TMX-Datei.

Optionen:

  -i INPUT, --input INPUT
                        Die zu konvertierende Eingabedatei.
  -o FSORTIDA, --output FSORTIDA
                        Behebt einige Probleme bei der PDF-Konvertierung.
  -s L1, --L1code L1 Der Sprachcode für die Ausgangssprache.
  -t L2, --L2code L2 Der Sprachcode für die Zielsprache.

Um die Datei alineacion-unic-eng-spa.txt in TMX zu konvertieren, können wir schreiben:

python3 MTUOC-tabtxt2TMX.py -i alignment-unic-eng-spa.txt -o alignment-eng-spa.tmx -s en-US -t es-ES

2.5.d Alignment mehrerer Dokumente mit hunalign

Der Vorteil der Verwendung von hunalign gegenüber LF-Aligner ist neben der besseren Kontrolle über alle Parameter die Möglichkeit, Hunderte oder Tausende von Dokumentenpaaren sehr schnell zu alignieren. In diesem Abschnitt erfahren Sie, wie Sie etwa 260 Paare von docx-Dokumenten ausrichten können, die Sie in den folgenden gezippten Dateien finden:

```
2023-de.zip
```
```
2023-de.zip
```

Laden Sie diese Dateien herunter und entpacken Sie sie.

Die Programme, die wir Ihnen für die verschiedenen Schritte des Alignments zweier Dokumente vorgestellt haben, liegen auch in der DIR-Version vor, die mit allen Dateien in einem bestimmten Verzeichnis umgehen kann.

SEHR WICHTIG: Um mehrere Dateien automatisch alignieren zu können, müssen die Dateinamen der Ausgangs- und der Zielsprache:

müssen exakt denselben Namen haben. Zum Beispiel: Datei1.txt und Datei1.txt (da sie sich in verschiedenen Verzeichnissen befinden, gibt es kein Problem).

oder sie haben genau den gleichen Namen, können sich aber durch Codes am Ende unterscheiden, die die Sprache der Datei angeben. Zum Beispiel: file1-de.txt und file1-de.txt.

Im Folgenden werden alle Schritte zum Alignment mehrerer Dokumentenpaare erläutert:

Schritt 1: Konvertierung der Dateien in Text

Wir werden die DIR-Version von MTUOC-any2text verwenden, MTUOC-any2textDIR.py. Sie können die Gebrauchsanweisung mit der Option -h einsehen.

python3 MTUOC-any2textDIR.py -i 2023-de/ -o 2023-txt-de python3 MTUOC-any2textDIR.py -i 2023-de/ -o 2023-txt-de

In den Verzeichnissen 2023-txt-en und 2023-txt-en haben wir die in Text konvertierten Dateien.

Schritt 2: Segmentierung der Dateien

Wir werden die DIR-Version von MTUOC-segmenter verwenden, MTUOC-segmentertDIR.py. Sie können die Gebrauchsanweisung mit der Option -h einsehen.

python3 MTUOC-segmenterDIR.py -i 2023-txt-de/ -o 2023-seg-de -s segment.srx -l Englisch -p python3 MTUOC-segmenterDIR.py -i 2023-txt-en/ -o 2023-seg-en -s segment.srx -l Spanisch -p

In den Verzeichnissen 2023-seg-en, 2023-seg-de und 2023-seg-it haben wir die segmentierten Textdateien.

Schritt 3. Alignment

Der Schritt des Alignments mit hunalign erfolgt im Batch-Modus, den dieses Programm bietet. hunalign kann mit einer Batch-Datei versehen werden, die in jeder Zeile Folgendes enthält: segmentierte Datei in der Ausgangssprache TABULADOR segmentierte Datei in der Zielsprache TABULADOR-Datei, die das Alignment enthalten wird.

MTUOC-aligner stellt ein Programm, MTUOC-create-batchfile.py, zur Verfügung, das diese Batch-Datei automatisch erstellt. Die Option -h zeigt die folgende Hilfe an:

python3 MTUOC-create-batchfile.py -h Verwendung: MTUOC-create-batchfile.py [-h] --dirSL DIRSL --dirTL DIRTL --dirALI DIRALI --batchfile BATCHFILE [--r1 R1] [--r2 R2]

Ein Skript zur Erstellung der Batch-Datei, die mit hunalign verwendet werden soll.

Optionen:

  -h, --help diese Hilfemeldung anzeigen und beenden
  --dirSL DIRSL Das Eingabeverzeichnis, das die segmentierten Textdateien für die Ausgangssprache enthält.
  --dirTL DIRTL Das Eingabeverzeichnis, das die segmentierten Textdateien für die Zielsprache enthält.
  --dirALI DIRALI Das Ausgabeverzeichnis zum Speichern der ausgerichteten Dateien.
  --batchfile BATCHFILE
                        Der Name des Alignment-Skripts.
  --r1 R1 Die erste Zeichenfolge für die Namensersetzung.
  --r2 R2 Die zweite Zeichenfolge für die Namensersetzung.

Schauen Sie sich die zu alignierenden Dateien genau an: Der Name der Dateien ist für die Ausgangs- und die Zielsprache genau gleich. Wenn wir den folgenden Befehl ausführen:

python3 MTUOC-create-batchfile.py --dirSL 2023-seg-de/ --dirTL 2023-seg-de/ --dirALI 2023-ali-en-de/ ---batchfile batchfile.txt

Das Programm erstellt die Batchdatei mit dem Namen batchfile.txt. Außerdem zeigt es die folgenden Informationen auf dem Bildschirm an: `` *** as-zimbabwe-bildet-einen-großen-bruder-staat-der-überwachung.txt.docx.txt
*** in-türkei-gerichte-verurteilen-den-bürgermeister.txt.docx.txt
*** dieses-spiel-an-der-linie-entlarvt-die-gefahren-des-bergbaus-im-hohen-meer.txt.docx.txt

Das bedeutet, dass diese Dateien in der Ausgangssprache keinen Partner in der Zielsprache haben.

Falls die Dateien Sprachcodes am Ende des Namens haben, z.B. alle Dateien in der Ausgangssprache enden auf „-en.txt“ und die in der Zielsprache enden auf „-es.txt“, würden wir das Programm mit den Optionen --r1 und --r2 wie folgt ausführen:

python3 MTUOC-create-batchfile.py --dirSL 2023-seg-de/ --dirTL 2023-seg-de/ --dirALI 2023-ali-en-de/ --batchfile batchfile.txt --r1 en.txt --r2 es.txt

Sehen Sie sich den Inhalt der Datei batchfile.txt an.

Jetzt können wir alle Dateien mit einem einzigen Befehl alignieren:

`./hunalign -batch hunapertium-en-en.dic -text -utf -realign batchfile.txt`

Unter der Adresse 2023-ali-en-en-es werden wir alle Dateien ausgerichtet haben.
Schritt 4. die Auswahl der Segmente

Die Auswahl der Dateien erfolgt mit dem Programm selectAlignmentsDir.py, wie folgt (denken Sie daran, dass die Option -h die Hilfe des Programms anzeigt).

`python3 selectAlignmentsDir.py -i 2023-ali-de-es/ -o alignments-selected-eng-spa.txt -c 0`
Schritt 5: Konvertierung in das endgültige Format
In diesem Schritt ändert sich nichts am Alignment der beiden Dokumente, so dass Sie die oben beschriebenen Aktionen wiederholen können.

2.5 Alignment mit hunalign - mkappus1/DatenmanagementMTHS24 GitHub Wiki

2.5. Automatisches Alignment von Dokumenten mit hunalign

2.5.a hunaling Herunterladen, Entpacken und Kompilieren

2.5.b Allgemeine Schritte des Alignments von Dokumenten

2.5.c Alignment von zwei Dokumenten mit hunalign

Schritt 1: Konvertierung der Dateien in Text

Schritt 2: Segmentierung der Dateien

Schritt 3. Alignment - BITTE NOCH NICHT BEARBEITEN

2.5.d Alignment mehrerer Dokumente mit hunalign

Schritt 1: Konvertierung der Dateien in Text

Schritt 2: Segmentierung der Dateien

Schritt 3. Alignment

⚠️ **GitHub.com Fallback** ⚠️

⚠️ GitHub.com Fallback ⚠️