Home - mkappus1/datenmanagement-mt-25 GitHub Wiki
Datenmanagement für die MT (HS 2025)
Übersicht
-
Lektion 1: Kommandozeilenumgebung installieren/konfigurieren. Erste Schritte in der Kommandozeile und im Linux-Datei System.
-
Lektion 2: TMX-Dateien in der Kommandozeile anzeigen lassen und bearbeiten. Exkurs: OPUS Corpora.
-
Lektion 3: Muster erkennen, Suchen/Ersetzen mit regulären Ausdrücken (am Beispiel TMX-Dateien)
-
Lektion 4: Fragen und Diskussion
Selbststudiumswoche 1
-
Lektion 5 : Exkurs Terminologie: Extraktion, TBX-Dateien bearbeiten.
-
Lektion 6: Andere Dateiformate für Paralleltexte (Parallele Dateien ↔ TMX)
-
Lektionen 7 & 8: Webscraping (Trafilatura)/Fragen und Diskussion bis hierhin
Selbststudiumswoche 2
Lektion 9: Tokenization, PoS
Lektion 10: Alignment
Lektionen 11 und12: Bringing everything together: Erstellen eines kleinen zweisprachigen Korpus