Home - mkappus1/datenmanagement-mt-25 GitHub Wiki

Datenmanagement für die MT (HS 2025)

Übersicht

  • Lektion 1: Kommandozeilenumgebung installieren/konfigurieren. Erste Schritte in der Kommandozeile und im Linux-Datei System.

  • Lektion 2: TMX-Dateien in der Kommandozeile anzeigen lassen und bearbeiten. Exkurs: OPUS Corpora.

  • Lektion 3: Muster erkennen, Suchen/Ersetzen mit regulären Ausdrücken (am Beispiel TMX-Dateien)

  • Lektion 4: Fragen und Diskussion

Selbststudiumswoche 1

  • Lektion 5 : Exkurs Terminologie: Extraktion, TBX-Dateien bearbeiten.

  • Lektion 6: Andere Dateiformate für Paralleltexte (Parallele Dateien ↔ TMX)

  • Lektionen 7 & 8: Webscraping (Trafilatura)/Fragen und Diskussion bis hierhin

Selbststudiumswoche 2

Lektion 9: Tokenization, PoS

Lektion 10: Alignment

Lektionen 11 und12: Bringing everything together: Erstellen eines kleinen zweisprachigen Korpus