Spaltenbasiertes Textformat - redewiedergabe/corpus GitHub Wiki

Allgemeine Angaben

Unterordner: txt

Die Korpus-Metadaten sind verfügbar in der Datei metadata_beta-release.xlsx

Das Korpus setzt sich zusammen aus einzelnen UTF-8 kodierten Dateien mit der Endung "tsv" (tab-separated values). Jede davon enthält den Text eines Samples in Spaltendarstellung, wobei die Spalten mit Tabstopps getrennt sind und jede Zeile einem Token entspricht (Tokenisierung wurde durchgeführt mit dem CAB-Dienst des Deutschen Textarchivs).

Neben den Annotationen des Redewiedergabe-Projekts werden auch morpho-syntaktische Informationen zur Verfügung gestellt, die mit automatischen Werkzeugen erstellt wurden, die nicht im Redewiedergabe-Projekt entwickelt wurden.

Referenzen:

  • CAB ("Cascaded Analysis Broker" for error-tolerant linguistic analysis): Jurish, B. Finite-state Canonicalization Techniques for Historical German. PhD thesis, Universität Potsdam, 2012 (defended 2011). URN urn:nbn:de:kobv:517-opus-55789. Dokumentation
  • RF-Tagger: Helmut Schmid and Florian Laws: Estimation of Conditional Probabilities with Decision Trees and an Application to Fine-Grained POS Tagging, COLING 2008, Manchester, Great Britain. Dokumentation

Spaltenübersicht

Spalte Beschreibung Typ
tok Token (Tokenisierung mit CAB) Oberfläche
normtok Token in normalisierter Schreibung (erstellt mit CAB) NLP-Information
lemma Lemma (erstellt mit CAB) NLP-Information
pos morphologische Information (erstellt mit CAB) NLP-Information
rfpos morphologische Information (erstellt mit dem RF-Tagger) NLP-Information
sentstart Information, ob das Token am Satzanfang steht; Werte: yes/no (Satzendeerkennung beruht auf CAB) NLP-Information
stwr Redewiedergabe-Annotation RW-Annotation
frame Redeeinleitungsphrase RW-Annotation
speaker Sprecher RW-Annotation
intexpr Redeeinleitungswort/-wörter RW-Annotation

Struktur der STWR-Annotationen

Da die Redewiedergabe-Annotationen sowohl zahlreiche Attribute haben, als auch verschachtelt sein können, sind die Angaben in der Spalte stwr komplex.

  • Das Zeichen | (senkrechter Strich) wird als Trennzeichen verwendet, wenn einem Token mehrere Annotationen verschiedener Level (verschachtelte Redewiedergabe) zugewiesen werden. Die erste Annotation entspricht dabei level=1, die zweite level=2 usw. (Maximale Verschachtelungstiefe im Beta-Release ist 5)
  • Das Zeichen . (Punkt) wird verwendet, um die Attribute einer einzelnen STWR-Annotation voneineander abzugrenzen. Dabei gilt die folgende Reihenfolge: Typ, Medium, ID, Nonfact, Border, Prag, Metaph. Die drei fett gedruckten Angaben sind immer vorhanden, die restlichen vier können fehlen, wenn die entsprechenden Attribute nicht relevant sind.
  • Die nähere Bestimmung des Attributs border wird hinter dem Zeichen = (Gleichheitszeichen) angegeben (z.B. border=state)
  • Alternative Werte werden mit dem Zeichen _ (Unterstrich) voneinander abgerenzt. Diese kann für die Angaben Typ (z.B. indirect_freeIndirect) und Medium (z.B. speech_thought) auftreten.

Beispiel:

direct.speech.3|reported.thought.6.nonfact.border=state

Token hat zwei überlappende Annotationen:

  • Auf level 1: direct speech mit ID=3
  • Auf level 2: reported thought mit ID=6 und Attributen "nonfact" und "border" mit dem Wert "state".

Struktur der Annotationen für frame, speaker und intexpr

Diese Annotationen bestehen immer aus einem Annotationsnamen (frame, speaker, intexpr), dem Zeichen . (Punkt), und der zugehörigen ID.

Speaker kann mehrere IDs haben, welche mit dem Zeichen _ (Unterstrich) voneinander abgerenzt sind

Beispiel:

speaker.12_19

Token ist annotiert als Speaker mit zwei IDs: 12 und 19 (d.h. dieser Speaker ist sowohl der STWR-Annotation mit ID 12 als auch der mit der ID 19 zuzuordnen)