Kurzübersicht Check‐Liste Block 6 - mkappus1/DatenmanagementMTHS24 GitHub Wiki

Kurzübersicht/ Check-Liste Block 6

Ausgangslage: Sie haben bilinguale Korpora mit über 10 000 Segmenten. Sind alle Segmente in den Korpora gleich "gut". Soll heissen: "sind sie für das Training von MÜ-Systemen geeignet?" Dabei werden folgende Aspekte betrachtet und "repariert".

Formale Probleme
Segmente in einer "falschen" Sprache
Segmente, die nicht übersetzungsäquivalent sind, das heisst, das Segment in der Zielsprache ist **keine **Übersetzung des Ausgangssegments.

BAG-Korpus herunterladen
Skript Sammlung MTUOC-clean-parallel-corpus herunterladen und installieren
Dateien entsprechend in Verzeichnisse kopieren/verschieben
Skript MTUOC-clean-parallel-corpus.py mit den Standard Optionen (-a) auf das BAG-Korpus anwenden
Aufgabe 1: Zeigen, dass das geklappt hat - per Screenshot
Datei mit den Segmenten erstellen, die ausgeschlossen wurden (also den "schlechten Segmenten")
Aufgabe 2: Inhalte der Datei mit den "schlechten" Segmenten anschauen und bewerten.
Datei mit den "schlechten" Segmenten hochladen
BAG-Korpora im Hinblick auf die Sprachen der Inhalte prüfen und die Meldungen des Skripts in eine Text-Datei schreiben lassen (mit dem Skript MTUOC-clean-parallel-corpus.py und den entsprechenden Optionen )
Aufgabe 3: Inhalt der Text-Datei mit den Meldungen anschauen und bewerten. Datei hochladen.

Re-Scoring

Skriptsammlung MTUOC-PCorpus-rescorer herunterladen.
Textdatei(en) mit 100 Segmenten medline-part-toscore-en-xy-neu.txt herunterladen
Spracherkennungsmodell installieren
Mit dem Skript MTUOC-PCorpus-rescorer.py eine Datenbank mit den Segmenten und einem Wert für den "Confidence" Index (Indiz für Übersetzungsäquivalenz/Qualität) erstellen
Mit dem Skript MTUOC-PCorpus-selector.py, die Segmente extrahieren, die über einem bestimmten "Confidence" Index liegen und in eine Text-Datei schreiben lassen.
Aufgabe 5 (optional) : Inhalt der Text-Datei anschauen und bewerten. Datei hochladen.