Spaltenbasiertes Textformat - redewiedergabe/corpus GitHub Wiki
Allgemeine Angaben
Unterordner: txt
Die Korpus-Metadaten sind verfügbar in der Datei metadata_beta-release.xlsx
Das Korpus setzt sich zusammen aus einzelnen UTF-8 kodierten Dateien mit der Endung "tsv" (tab-separated values). Jede davon enthält den Text eines Samples in Spaltendarstellung, wobei die Spalten mit Tabstopps getrennt sind und jede Zeile einem Token entspricht (Tokenisierung wurde durchgeführt mit dem CAB-Dienst des Deutschen Textarchivs).
Neben den Annotationen des Redewiedergabe-Projekts werden auch morpho-syntaktische Informationen zur Verfügung gestellt, die mit automatischen Werkzeugen erstellt wurden, die nicht im Redewiedergabe-Projekt entwickelt wurden.
Referenzen:
- CAB ("Cascaded Analysis Broker" for error-tolerant linguistic analysis): Jurish, B. Finite-state Canonicalization Techniques for Historical German. PhD thesis, Universität Potsdam, 2012 (defended 2011).
URN urn:nbn:de:kobv:517-opus-55789
. Dokumentation - RF-Tagger: Helmut Schmid and Florian Laws: Estimation of Conditional Probabilities with Decision Trees and an Application to Fine-Grained POS Tagging, COLING 2008, Manchester, Great Britain. Dokumentation
Spaltenübersicht
Spalte | Beschreibung | Typ |
---|---|---|
tok | Token (Tokenisierung mit CAB) | Oberfläche |
normtok | Token in normalisierter Schreibung (erstellt mit CAB) | NLP-Information |
lemma | Lemma (erstellt mit CAB) | NLP-Information |
pos | morphologische Information (erstellt mit CAB) | NLP-Information |
rfpos | morphologische Information (erstellt mit dem RF-Tagger) | NLP-Information |
sentstart | Information, ob das Token am Satzanfang steht; Werte: yes/no (Satzendeerkennung beruht auf CAB) | NLP-Information |
stwr | Redewiedergabe-Annotation | RW-Annotation |
frame | Redeeinleitungsphrase | RW-Annotation |
speaker | Sprecher | RW-Annotation |
intexpr | Redeeinleitungswort/-wörter | RW-Annotation |
Struktur der STWR-Annotationen
Da die Redewiedergabe-Annotationen sowohl zahlreiche Attribute haben, als auch verschachtelt sein können, sind die Angaben in der Spalte stwr komplex.
- Das Zeichen
|
(senkrechter Strich) wird als Trennzeichen verwendet, wenn einem Token mehrere Annotationen verschiedener Level (verschachtelte Redewiedergabe) zugewiesen werden. Die erste Annotation entspricht dabei level=1, die zweite level=2 usw. (Maximale Verschachtelungstiefe im Beta-Release ist 5) - Das Zeichen
.
(Punkt) wird verwendet, um die Attribute einer einzelnen STWR-Annotation voneineander abzugrenzen. Dabei gilt die folgende Reihenfolge: Typ, Medium, ID, Nonfact, Border, Prag, Metaph. Die drei fett gedruckten Angaben sind immer vorhanden, die restlichen vier können fehlen, wenn die entsprechenden Attribute nicht relevant sind. - Die nähere Bestimmung des Attributs border wird hinter dem Zeichen
=
(Gleichheitszeichen) angegeben (z.B. border=state) - Alternative Werte werden mit dem Zeichen
_
(Unterstrich) voneinander abgerenzt. Diese kann für die Angaben Typ (z.B. indirect_freeIndirect) und Medium (z.B. speech_thought) auftreten.
Beispiel:
direct.speech.3|reported.thought.6.nonfact.border=state
Token hat zwei überlappende Annotationen:
- Auf level 1: direct speech mit ID=3
- Auf level 2: reported thought mit ID=6 und Attributen "nonfact" und "border" mit dem Wert "state".
Struktur der Annotationen für frame, speaker und intexpr
Diese Annotationen bestehen immer aus einem Annotationsnamen (frame, speaker, intexpr), dem Zeichen .
(Punkt), und der zugehörigen ID.
Speaker kann mehrere IDs haben, welche mit dem Zeichen _
(Unterstrich) voneinander abgerenzt sind
Beispiel:
speaker.12_19
Token ist annotiert als Speaker mit zwei IDs: 12 und 19 (d.h. dieser Speaker ist sowohl der STWR-Annotation mit ID 12 als auch der mit der ID 19 zuzuordnen)