Annotationsstruktur - redewiedergabe/corpus GitHub Wiki

Dies ist ein Kurzüberblick über die im Redewiedergabe-Korpus verwendeten Annotationen, deren Struktur und Bezeichnungen.

Um die Bedeutung und Anwendung dieser Kategorien wirklich zu verstehen, empfehlen wir unbedingt, die detaillierten Annotationsrichtlinien auf unserer Projekthomepage hinzuzuziehen.

Schreibung und Formatierung der Attribute weichen in den Ausgabeformaten Spaltenbasiertes Textformat und XML-Format leicht voneinander ab (siehe Dokumentation der Formate).

Fußnotentexte

Die Samples des Redewiedergabe-Projekts enthalten teilweise Fußnoten, welche in den Fließtext eingeschoben sind. Diese sind mit der Annotation note markiert. Die Markierung wurde übernommen aus den zugrunde liegenden Volltexten.

Achtung: Fußnotentexte können auch Sätze unterbrechen!

Annotation STWR (Speech, Thought, Writing Representation)

Hauptattribute

Diese Attribute sind für jede STWR-Annotation ausgefüllt.

Kategorie Werte Mögliche kombinierte Werte Bedeutung
type direct, freeIndirect, indirect, reported indirect_freeIndirect Wiedergabetyp
medium speech, thought, writing speech_thought, speech_writing, thought_writing, speech_thought_writing Medium
id Zahl eindeutige ID; bezieht sich auf die IDs von frame, speaker, intExpr oder verknüpft getrennte STWR-Annotationen (z.B. durch frame getrennte direkte Wiedergaben).
level Zahl (beginnend mit 1) Grad der Einbettung in andere Wiedergaben; Wert 1=oberste Ebene

Nebenattribute

Diese Attribute sind optional.

Kategorie Werte Beschreibung
non-fact yes in der Textwelt nicht wirklich ausgeführte Rede, z.B. hypothetisch
border state, percept, unspec Grenzfälle der Wiedergabe, z.B. Gefühle
prag yes pragmatisch anderer Zweck der Wiedergabe, z.B. Redewendungen
metaph yes metaphorische Wiedergabe

Annotationen Frame, Speaker und Intexpr

Attribut Werte Attribut-Beschreibung
id Zahl eindeutige ID; verknüpft die Annotationen miteinander und mit einer oder mehreren STWR-Annotationen.
pos start, mid, end nur für Frame: Position der Redeeinleitungsphrase relativ zur Wiedergabe, d.h. Position der Frame relativ zur dazu gehörigen STWR-Annotation; start=davor, mid=eingeschoben, end=nachgestellt)

Speaker-Annotationen können mehr als eine ID enthalten, wenn sie sich auf mehrere unterschiedliche STWR-Annotationen beziehen.

Frame-Annotationen können nur STWR-Annotationen mit den Typen direct oder indirect zugeordnet sein. Intexpr-Annotationen können zusätzlich auch STWR-Annotationen mit dem Typ reported zugeordnet sein. Speaker-Annotationen können allen STWR-Typen zugeordnet sein.

Intexpr-Annotationen befinden sich immer innerhalb von Frame-Annotationen oder von STWR-Annotationen mit dem Typ reported.

Meist ist jeder Frame-Annotation eine Intexpr und eine Speaker-Annotation zugeordnet. Davon gibt es jedoch Abweichungen:

  • Für eine Frame-Annotation können mehrere Intexpr-Annotationen vorliegen. Dies sind dann entweder koordinierte Elemente ("er bat und bettelte") oder Teile einer Phrase/mehrteiligem Verb, die nicht zusammenstehen ("er rief laut aus").
  • Für eine Frame-Annotation können mehrere Speaker-Annotationen vorliegen. Dies sind dann koordinierte Elemente (mehrere Personen).
  • Es kann Frame-Annotationen geben, denen weder Speaker noch Intexpr zugeordnet ist (wenn diese nicht identifizierbar waren)
  • In Ausnahmefällen gibt es Frame-Annotationen ohne zugeordnete STWR-Annotation, wenn die Frame direkt am Ende eines Samples steht. In diesem Fall ist der Wert der ID Null.

Weitere strukturelle Hinweise

  • STWR-Annotationen sind sehr oft ineinander verschachtelt. Im Beta-Release ist die maximale Verschachtelungstiefe level=5 (ein Vorkommen).
  • Frame-Annotationen können in Ausnahmefällen ebenfalls ineinander verschachtelt sein (ein Vorkommen im Beta-Release).