1.6 Schritt für Schritt - mkappus1/DatenmanagementMTHS24 GitHub Wiki

Grundlegende Korpusvorbereitung mit Unix Befehlen -- Schritt für Schritt

Verzeichnis Woche1 mit dem Befehl mkdir erstellt und mit cd in das Verzeichnis gewechselt.

Ein Bild, das Text, Screenshot, Schrift enthält. Automatisch generierte Beschreibung{width="3.3336220472440945in" height="1.2917782152230972in"}

Mit dem Befehl wget https://object.pouta.csc.fi/OPUS-EMEA/v3/moses/de-en.txt.zip das Korpus heruntergeladen.

Ein Bild, das Text, Screenshot, Schrift enthält. Automatisch generierte Beschreibung{width="6.3in" height="1.3736111111111111in"}

Als Ergebnis liegt die Datei de-en.zip im aktuellen Verzeichnis (Woche1)

Ein Bild, das Text, Schrift, Screenshot, Grafiken enthält. Automatisch generierte Beschreibung{width="2.8252449693788275in" height="0.8334055118110236in"}

Mit dem Befehl unzip de-en.txt.zip wird die Datei entpackt.

Ein Bild, das Text, Screenshot, Schrift enthält. Automatisch generierte Beschreibung{width="4.242034120734908in" height="1.0084208223972004in"}

Im Verzeichnis Woche1 liegen nun ausser der ursprünglichen ZUP Daei und einer Readme Datei die folgenden Dateien:

{width="4.075353237095363in" height="0.3000262467191601in"}

  • EMEA.de-en.de: der englische Teil des Korpus

  • EMEA.de-en.de: der deutsche Teil des Korpus

Wie sehen diese Datiene aus? Wenn man die beiden atieen im Texteditor Notepad++ öffnet erhält man folgende Ergebnisse:

Ein Bild, das Text, Screenshot, Schrift, Zahl enthält. Automatisch generierte Beschreibung{width="6.3in" height="2.23125in"}

Ein Bild, das Text, Schrift, Zahl, Reihe enthält. Automatisch generierte Beschreibung{width="6.3in" height="1.6381944444444445in"}

Mit dem Befehl wc und den Dateinamen können wir die Anzahl der Segmente (Zeilen) in den Dateien zählen.

wc -l EMEA.de-en.??

Dabei verwenden wir das Sonderzeichen ? als Platzhalter für ein beliebiges Zeichen damit die Anzahl der Zeillen für beide Dateien gezählt wird.

Ein Bild, das Text, Screenshot, Schrift enthält. Automatisch generierte Beschreibung{width="4.058685476815398in" height="0.7083945756780402in"}

{width="6.3in" height="0.14166666666666666in"}

Ergebnis:

Ein Bild, das Text, Screenshot, Zahl, Schrift enthält. Automatisch generierte Beschreibung{width="6.3in" height="2.5034722222222223in"}

Durch diese Operation hat sich die zahl der Segemnte 8durch die Eliminierung von Doubletten) deutlich reduziert (auf 364142 Segmente):

{width="4.65873687664042in" height="0.38336614173228345in"}

`more EMEA-uniq-eng-deu.txt`

Ein Bild, das Text, Screenshot, Schrift, Schwarzweiß enthält. Automatisch generierte Beschreibung{width="6.3in" height="3.329861111111111in"}