1.6 Schritt für Schritt - mkappus1/DatenmanagementMTHS24 GitHub Wiki
Grundlegende Korpusvorbereitung mit Unix Befehlen -- Schritt für Schritt
Verzeichnis Woche1 mit dem Befehl mkdir erstellt und mit cd in das Verzeichnis gewechselt.
{width="3.3336220472440945in" height="1.2917782152230972in"}
Mit dem Befehl wget https://object.pouta.csc.fi/OPUS-EMEA/v3/moses/de-en.txt.zip das Korpus heruntergeladen.
{width="6.3in" height="1.3736111111111111in"}
Als Ergebnis liegt die Datei de-en.zip im aktuellen Verzeichnis (Woche1)
{width="2.8252449693788275in" height="0.8334055118110236in"}
Mit dem Befehl unzip de-en.txt.zip wird die Datei entpackt.
{width="4.242034120734908in" height="1.0084208223972004in"}
Im Verzeichnis Woche1 liegen nun ausser der ursprünglichen ZUP Daei und einer Readme Datei die folgenden Dateien:
{width="4.075353237095363in" height="0.3000262467191601in"}
-
EMEA.de-en.de: der englische Teil des Korpus
-
EMEA.de-en.de: der deutsche Teil des Korpus
Wie sehen diese Datiene aus? Wenn man die beiden atieen im Texteditor Notepad++ öffnet erhält man folgende Ergebnisse:
{width="6.3in" height="2.23125in"}
{width="6.3in" height="1.6381944444444445in"}
Mit dem Befehl wc und den Dateinamen können wir die Anzahl der Segmente (Zeilen) in den Dateien zählen.
wc -l EMEA.de-en.??
Dabei verwenden wir das Sonderzeichen ? als Platzhalter für ein beliebiges Zeichen damit die Anzahl der Zeillen für beide Dateien gezählt wird.
{width="4.058685476815398in" height="0.7083945756780402in"}
{width="6.3in" height="0.14166666666666666in"}
Ergebnis:
{width="6.3in" height="2.5034722222222223in"}
Durch diese Operation hat sich die zahl der Segemnte 8durch die Eliminierung von Doubletten) deutlich reduziert (auf 364142 Segmente):
{width="4.65873687664042in" height="0.38336614173228345in"}
`more EMEA-uniq-eng-deu.txt`
{width="6.3in" height="3.329861111111111in"}