Kurzübersicht Check‐Liste Block 6 - mkappus1/DatenmanagementMTHS24 GitHub Wiki

Kurzübersicht/ Check-Liste Block 6

Ausgangslage: Sie haben bilinguale Korpora mit über 10 000 Segmenten. Sind alle Segmente in den Korpora gleich "gut". Soll heissen: "sind sie für das Training von MÜ-Systemen geeignet?" Dabei werden folgende Aspekte betrachtet und "repariert".

  • Formale Probleme

  • Segmente in einer "falschen" Sprache

  • Segmente, die nicht übersetzungsäquivalent sind, das heisst, das Segment in der Zielsprache ist **keine **Übersetzung des Ausgangssegments.


  • BAG-Korpus herunterladen

  • Skript Sammlung MTUOC-clean-parallel-corpus herunterladen und installieren

  • Dateien entsprechend in Verzeichnisse kopieren/verschieben

  • Skript MTUOC-clean-parallel-corpus.py mit den Standard Optionen (-a) auf das BAG-Korpus anwenden

  • Aufgabe 1: Zeigen, dass das geklappt hat - per Screenshot

  • Datei mit den Segmenten erstellen, die ausgeschlossen wurden (also den "schlechten Segmenten")

  • Aufgabe 2: Inhalte der Datei mit den "schlechten" Segmenten anschauen und bewerten.

  • Datei mit den "schlechten" Segmenten hochladen

  • BAG-Korpora im Hinblick auf die Sprachen der Inhalte prüfen und die Meldungen des Skripts in eine Text-Datei schreiben lassen (mit dem Skript MTUOC-clean-parallel-corpus.py und den entsprechenden Optionen )

  • Aufgabe 3: Inhalt der Text-Datei mit den Meldungen anschauen und bewerten. Datei hochladen.


Re-Scoring

  • Skriptsammlung MTUOC-PCorpus-rescorer herunterladen.

  • Textdatei(en) mit 100 Segmenten medline-part-toscore-en-xy-neu.txt herunterladen

  • Spracherkennungsmodell installieren

  • Mit dem Skript MTUOC-PCorpus-rescorer.py eine Datenbank mit den Segmenten und einem Wert für den "Confidence" Index (Indiz für Übersetzungsäquivalenz/Qualität) erstellen

  • Mit dem Skript MTUOC-PCorpus-selector.py, die Segmente extrahieren, die über einem bestimmten "Confidence" Index liegen und in eine Text-Datei schreiben lassen.

  • Aufgabe 5 (optional) : Inhalt der Text-Datei anschauen und bewerten. Datei hochladen.