_Sidebar.md - mkappus1/DatenmanagementMTHS24 GitHub Wiki
Inhaltsverzeichnis
Woche 1
- Woche 1: 1. Übersicht
- Woche 1: 2. Empfohlene Lektüre
- Woche 1: 3. Parallele Korpora
- Woche 1: 4. Linux auf Ihrem Computer
- Woche 1: 5. Grundlegende UNIX Befehle
- Woche 1: 6. Grundlegende Korpusvorbereitung mit UNIX-Befehlen
Übungen
Dateien unter: https://github.com/mkappus1/DatenmanagementMTHS24/blob/main/Woche1/Aufgaben/Wortliste-de.txt und https://github.com/mkappus1/DatenmanagementMTHS24/blob/main/Woche1/Aufgaben/Wortliste.en.txt
Woche 2
- Woche 2. 1. Übersicht
- Woche 2: 2. Vorarbeiten
- Woche 2: 3. Konvertieren von TMX-Dateien in ein Tabellenformat
- Woche 2: 4. Alignment mit LF Aligner
- Woche 2: 5. Automatisches Alignment mit hunalign
Woche 3: Erstellung von parallelen Korpora (II): Herunterladen von Websites.
- Woche 3: 1. Übersicht
- Woche 3: 2. Lektüre:
- Woche 3: 3. Herunterladen von Websites mit generischen Algorithmen
- Woche 3: 3.1 Einleitung
- Woche 3: 3.2 Sitemap erstellen
- Woche 3: 3.3 Herunterladen der Inhalte der Website (I)
- Woche 3: 3.4 Herunterladen der Inhalte der Website (II) - Trafilatura
- Woche 3: 3.5 Konvertierung in Text - NOCH NICHT BEARBEITEN
Woche 4: Erstellung paralleler Korpora (III). Alignment der heruntergeladenen Websites
- Woche 4: 1. Einleitung
- woche 4: 2. empfohlene Lektüre
- Woche 4: 3. Einige Vorüberlegungen
- Woche 4: 4. Alignment
- Woche 4: 4.1. Segmentierung
- Woche 4: 4.2. Alignment mit hunaling
- Woche 4: 4.3. Auswahl der Segmente
Woche 5: Woche 5 Erstellung von vergleichbaren Korpora
- Woche 5: 1. Übersicht
- Woche 5: 2. Empfohlene Lektüre
- Woche 5: 3. Wikipedia
- Woche 5: 4. Erstellen vergleichbarer Korpora mit CCWikipedia
- Woche 5: 5. Direkte Verwendung von Wikipedia-Dumps
- Woche 5: 5.1 Konvertierung des Dumps in Textdateien
- Woche 5: 5.2. Die Kategorien erforschen
Woche 6: Korpusbereinigung
- Woche 6: 1. Einführung
- Woche 6: 2. empfohlene Lektüre
- Woche 6: 3. Koprusbereinigung
- Woche 6: 4. Korpus-Re-Scoring
Woche 7: Vorverarbeitung paralleler Korpora für das Training neuronaler Maschinenübersetzungssysteme
- Woche 7: 1. Einleitung
- Woche 7: 2. empfohlene Lektüre
- Woche 7: 3. Allgemeine Vorverarbeitungsschritte
- Woche 7: 3.1. Tokenisierung
- Woche 7: 3.2. Truecasing
- Woche 7: 3.3. Numerische Ausdrücke
- Woche 7: 3.4. E-Mail und URLS
- Woche 7: 3.5. Unterwörter
- Woche 7: 3.6. Aufteilung des Korpus
- Woche 7: 4. MTUOC-Korpus-Vorverarbeitung
- Woche 7: 5. Guided Alignment -> Nächste Woche