1.3 Parallele Korpora - mkappus1/DatenmanagementMTHS24 GitHub Wiki

Um NMT-Systeme zu trainieren, benötigen wir ein paralleles Korpus von ausreichender Grösse. Im Internet gibt es mehrere Repositories, aus denen wir parallele Korpora für verschiedene Sprachpaare und Fachgebiete beziehen können. Ein Repository sticht dabei besonders hervor: Opus Corpora.

Rufen Sie diese Ressource auf und sehen Sie sie sich genau an. Wie Sie sehen werden, gibt es dort eine Suchmaschine, in die Sie die gewünschte Ausgangs- und Zielsprache eingeben können. Wenn Sie Englisch als Ausgangssprache und Duetsch als Zielsprache eingeben, werden Sie sehen, wie viele Korpora angezeigt werden.Screenshot Sie sehen eine Tabelle mit grundlegenden Statistiken jedes Korpus mit der Anzahl der Segmente und der Token. Es ist wichtig zu wissen, dass jeder Korpusname ein Link ist. Wenn Sie darauf klicken, gelangen Sie auf eine Seite, auf der die Details des angegebenen Korpus erklärt werden.

Ein sehr wichtiger Punkt bei diesen Korpora ist, dass die Ausgangssprache des Korpus nicht unbedingt die eigentliche Originalsprache und die Zielsprache die Übersetzung sein muss. In einem englisch-deutschen Korpus kann es beispielsweise sein, dass in einem Segment Englisch das Original und Deutsch die Übersetzung ist, in einem anderen Segment kann es aber auch umgekehrt sein. Es ist sogar möglich, dass die beiden Sprachen in Wirklichkeit die Übersetzung aus einer dritten Sprache sind, die dann das Original wäre. Wenn wir uns die detaillierte Beschreibung des Korpus ansehen, können wir herausfinden, oder zumindest, erahnen, ob es sich tatsächlich um die Originale handelt oder nicht.

Ein weiterer Aspekt ist, dass einige der Korpora wirklich riesig sind und das Herunterladen sehr viel Zeit und Speicherplatz auf Ihrem Computer erfordert.

Laden Sie nun ein kleines Korpus herunter, z.B. das EMEA mit etwas mehr als 1 Mio. Segmenten (laden Sie jetzt nicht das ELRC-EMEA herunter, das viel größer ist. Sie werden sehen, dass Sie es im Moses-Format und im TMX-Format herunterladen können. Laden Sie beide Formate herunter, entpacken Sie die Dateien, falls nötig, und sehen Sie sie sich an, indem Sie sie in einem guten Texteditor öffnen (ich gebe Ihnen weiter unten einige Tipps, welche Texteditoren geeignet sind). Verwenden Sie keine Korpora mit mehr als 1 Mio. Segmenten, da der Editor sonst wahrscheinlich abstürzen wird.