Annotationsstruktur - redewiedergabe/corpus GitHub Wiki
Dies ist ein Kurzüberblick über die im Redewiedergabe-Korpus verwendeten Annotationen, deren Struktur und Bezeichnungen.
Um die Bedeutung und Anwendung dieser Kategorien wirklich zu verstehen, empfehlen wir unbedingt, die detaillierten Annotationsrichtlinien auf unserer Projekthomepage hinzuzuziehen.
Schreibung und Formatierung der Attribute weichen in den Ausgabeformaten Spaltenbasiertes Textformat und XML-Format leicht voneinander ab (siehe Dokumentation der Formate).
Fußnotentexte
Die Samples des Redewiedergabe-Projekts enthalten teilweise Fußnoten, welche in den Fließtext eingeschoben sind. Diese sind mit der Annotation note
markiert. Die Markierung wurde übernommen aus den zugrunde liegenden Volltexten.
Achtung: Fußnotentexte können auch Sätze unterbrechen!
Annotation STWR (Speech, Thought, Writing Representation)
Hauptattribute
Diese Attribute sind für jede STWR-Annotation ausgefüllt.
Kategorie | Werte | Mögliche kombinierte Werte | Bedeutung |
---|---|---|---|
type | direct, freeIndirect, indirect, reported | indirect_freeIndirect | Wiedergabetyp |
medium | speech, thought, writing | speech_thought, speech_writing, thought_writing, speech_thought_writing | Medium |
id | Zahl | eindeutige ID; bezieht sich auf die IDs von frame, speaker, intExpr oder verknüpft getrennte STWR-Annotationen (z.B. durch frame getrennte direkte Wiedergaben). | |
level | Zahl (beginnend mit 1) | Grad der Einbettung in andere Wiedergaben; Wert 1=oberste Ebene |
Nebenattribute
Diese Attribute sind optional.
Kategorie | Werte | Beschreibung |
---|---|---|
non-fact | yes | in der Textwelt nicht wirklich ausgeführte Rede, z.B. hypothetisch |
border | state, percept, unspec | Grenzfälle der Wiedergabe, z.B. Gefühle |
prag | yes | pragmatisch anderer Zweck der Wiedergabe, z.B. Redewendungen |
metaph | yes | metaphorische Wiedergabe |
Annotationen Frame, Speaker und Intexpr
Attribut | Werte | Attribut-Beschreibung |
---|---|---|
id | Zahl | eindeutige ID; verknüpft die Annotationen miteinander und mit einer oder mehreren STWR-Annotationen. |
pos | start, mid, end | nur für Frame: Position der Redeeinleitungsphrase relativ zur Wiedergabe, d.h. Position der Frame relativ zur dazu gehörigen STWR-Annotation; start=davor, mid=eingeschoben, end=nachgestellt) |
Speaker-Annotationen können mehr als eine ID enthalten, wenn sie sich auf mehrere unterschiedliche STWR-Annotationen beziehen.
Frame-Annotationen können nur STWR-Annotationen mit den Typen direct oder indirect zugeordnet sein. Intexpr-Annotationen können zusätzlich auch STWR-Annotationen mit dem Typ reported zugeordnet sein. Speaker-Annotationen können allen STWR-Typen zugeordnet sein.
Intexpr-Annotationen befinden sich immer innerhalb von Frame-Annotationen oder von STWR-Annotationen mit dem Typ reported.
Meist ist jeder Frame-Annotation eine Intexpr und eine Speaker-Annotation zugeordnet. Davon gibt es jedoch Abweichungen:
- Für eine Frame-Annotation können mehrere Intexpr-Annotationen vorliegen. Dies sind dann entweder koordinierte Elemente ("er bat und bettelte") oder Teile einer Phrase/mehrteiligem Verb, die nicht zusammenstehen ("er rief laut aus").
- Für eine Frame-Annotation können mehrere Speaker-Annotationen vorliegen. Dies sind dann koordinierte Elemente (mehrere Personen).
- Es kann Frame-Annotationen geben, denen weder Speaker noch Intexpr zugeordnet ist (wenn diese nicht identifizierbar waren)
- In Ausnahmefällen gibt es Frame-Annotationen ohne zugeordnete STWR-Annotation, wenn die Frame direkt am Ende eines Samples steht. In diesem Fall ist der Wert der ID Null.
Weitere strukturelle Hinweise
- STWR-Annotationen sind sehr oft ineinander verschachtelt. Im Beta-Release ist die maximale Verschachtelungstiefe level=5 (ein Vorkommen).
- Frame-Annotationen können in Ausnahmefällen ebenfalls ineinander verschachtelt sein (ein Vorkommen im Beta-Release).