Annotationsstruktur - redewiedergabe/corpus GitHub Wiki

Dies ist ein Kurzüberblick über die im Redewiedergabe-Korpus verwendeten Annotationen, deren Struktur und Bezeichnungen.

Um die Bedeutung und Anwendung dieser Kategorien wirklich zu verstehen, empfehlen wir unbedingt, die detaillierten Annotationsrichtlinien auf unserer Projekthomepage hinzuzuziehen.

Schreibung und Formatierung der Attribute weichen in den Ausgabeformaten Spaltenbasiertes Textformat und XML-Format leicht voneinander ab (siehe Dokumentation der Formate).

Fußnotentexte

Die Samples des Redewiedergabe-Projekts enthalten teilweise Fußnoten, welche in den Fließtext eingeschoben sind. Diese sind mit der Annotation note markiert. Die Markierung wurde übernommen aus den zugrunde liegenden Volltexten.

Achtung: Fußnotentexte können auch Sätze unterbrechen!

Annotation STWR (Speech, Thought, Writing Representation)

Hauptattribute

Diese Attribute sind für jede STWR-Annotation ausgefüllt.

Kategorie	Werte	Mögliche kombinierte Werte	Bedeutung
type	direct, freeIndirect, indirect, reported	indirect_freeIndirect	Wiedergabetyp
medium	speech, thought, writing	speech_thought, speech_writing, thought_writing, speech_thought_writing	Medium
id	Zahl		eindeutige ID; bezieht sich auf die IDs von frame, speaker, intExpr oder verknüpft getrennte STWR-Annotationen (z.B. durch frame getrennte direkte Wiedergaben).
level	Zahl (beginnend mit 1)		Grad der Einbettung in andere Wiedergaben; Wert 1=oberste Ebene

Nebenattribute

Diese Attribute sind optional.

Kategorie	Werte	Beschreibung
non-fact	yes	in der Textwelt nicht wirklich ausgeführte Rede, z.B. hypothetisch
border	state, percept, unspec	Grenzfälle der Wiedergabe, z.B. Gefühle
prag	yes	pragmatisch anderer Zweck der Wiedergabe, z.B. Redewendungen
metaph	yes	metaphorische Wiedergabe

Annotationen Frame, Speaker und Intexpr

Attribut	Werte	Attribut-Beschreibung
id	Zahl	eindeutige ID; verknüpft die Annotationen miteinander und mit einer oder mehreren STWR-Annotationen.
pos	start, mid, end	nur für Frame: Position der Redeeinleitungsphrase relativ zur Wiedergabe, d.h. Position der Frame relativ zur dazu gehörigen STWR-Annotation; start=davor, mid=eingeschoben, end=nachgestellt)

Speaker-Annotationen können mehr als eine ID enthalten, wenn sie sich auf mehrere unterschiedliche STWR-Annotationen beziehen.

Frame-Annotationen können nur STWR-Annotationen mit den Typen direct oder indirect zugeordnet sein. Intexpr-Annotationen können zusätzlich auch STWR-Annotationen mit dem Typ reported zugeordnet sein. Speaker-Annotationen können allen STWR-Typen zugeordnet sein.

Intexpr-Annotationen befinden sich immer innerhalb von Frame-Annotationen oder von STWR-Annotationen mit dem Typ reported.

Meist ist jeder Frame-Annotation eine Intexpr und eine Speaker-Annotation zugeordnet. Davon gibt es jedoch Abweichungen:

Für eine Frame-Annotation können mehrere Intexpr-Annotationen vorliegen. Dies sind dann entweder koordinierte Elemente ("er bat und bettelte") oder Teile einer Phrase/mehrteiligem Verb, die nicht zusammenstehen ("er rief laut aus").
Für eine Frame-Annotation können mehrere Speaker-Annotationen vorliegen. Dies sind dann koordinierte Elemente (mehrere Personen).
Es kann Frame-Annotationen geben, denen weder Speaker noch Intexpr zugeordnet ist (wenn diese nicht identifizierbar waren)
In Ausnahmefällen gibt es Frame-Annotationen ohne zugeordnete STWR-Annotation, wenn die Frame direkt am Ende eines Samples steht. In diesem Fall ist der Wert der ID Null.

Weitere strukturelle Hinweise

STWR-Annotationen sind sehr oft ineinander verschachtelt. Im Beta-Release ist die maximale Verschachtelungstiefe level=5 (ein Vorkommen).
Frame-Annotationen können in Ausnahmefällen ebenfalls ineinander verschachtelt sein (ein Vorkommen im Beta-Release).