Kurzübersicht Check‐Liste Block 6 - mkappus1/DatenmanagementMTHS24 GitHub Wiki
Kurzübersicht/ Check-Liste Block 6
Ausgangslage: Sie haben bilinguale Korpora mit über 10 000 Segmenten. Sind alle Segmente in den Korpora gleich "gut". Soll heissen: "sind sie für das Training von MÜ-Systemen geeignet?" Dabei werden folgende Aspekte betrachtet und "repariert".
-
Formale Probleme
-
Segmente in einer "falschen" Sprache
-
Segmente, die nicht übersetzungsäquivalent sind, das heisst, das Segment in der Zielsprache ist **keine **Übersetzung des Ausgangssegments.
-
BAG-Korpus herunterladen
-
Skript Sammlung MTUOC-clean-parallel-corpus herunterladen und installieren
-
Dateien entsprechend in Verzeichnisse kopieren/verschieben
-
Skript MTUOC-clean-parallel-corpus.py mit den Standard Optionen (
-a
) auf das BAG-Korpus anwenden -
Aufgabe 1: Zeigen, dass das geklappt hat - per Screenshot
-
Datei mit den Segmenten erstellen, die ausgeschlossen wurden (also den "schlechten Segmenten")
-
Aufgabe 2: Inhalte der Datei mit den "schlechten" Segmenten anschauen und bewerten.
-
Datei mit den "schlechten" Segmenten hochladen
-
BAG-Korpora im Hinblick auf die Sprachen der Inhalte prüfen und die Meldungen des Skripts in eine Text-Datei schreiben lassen (mit dem Skript MTUOC-clean-parallel-corpus.py und den entsprechenden Optionen )
-
Aufgabe 3: Inhalt der Text-Datei mit den Meldungen anschauen und bewerten. Datei hochladen.
Re-Scoring
-
Skriptsammlung MTUOC-PCorpus-rescorer herunterladen.
-
Textdatei(en) mit 100 Segmenten medline-part-toscore-en-xy-neu.txt herunterladen
-
Spracherkennungsmodell installieren
-
Mit dem Skript MTUOC-PCorpus-rescorer.py eine Datenbank mit den Segmenten und einem Wert für den "Confidence" Index (Indiz für Übersetzungsäquivalenz/Qualität) erstellen
-
Mit dem Skript MTUOC-PCorpus-selector.py, die Segmente extrahieren, die über einem bestimmten "Confidence" Index liegen und in eine Text-Datei schreiben lassen.
-
Aufgabe 5 (optional) : Inhalt der Text-Datei anschauen und bewerten. Datei hochladen.