XML Format - redewiedergabe/corpus GitHub Wiki

Allgemeine Angaben

Unterordner: xml

Das Korpus setzt sich aus TEI-validen XML-Dateien zusammen. Jede davon enthält den Text eines Samples und die Annotationen des Redewiedergabeprojekts.

Aufbau einer Sampledatei

  • TEI-Header mit grundsätzlichen Angaben
  • <fs>-Element mit Metadaten des Samples im Stil des Redewiedergabeprojekts (vgl. Metadaten)
  • Der Text des Samples enthält folgende Tags: <said> (STWR-Annotation), <seg> (Frame, Speaker, IntExpr-Annotation), <note> (Markierung von Fußnotentext), <p> (Absatz; umschließt jeweils den gesamten Sampletext)

Projektspezifische Erweiterungen der TEI

Ein Schema vom Typ RelaxNG XML Syntax wurde erstellt, in dem die TEI Module für Linguistic corpora an das Annotationsschema des Redewiedergabe-Projekts angepasst wurden. Im folgenden Abschnitt wird beschrieben, welche Elemente wie erweitert wurden.

Schema: tei_rw_beta_corpus.rng

Erweiterungen des TEI-Elements <said> (STWR-Annotationen)

Attribut Werte Attribut-Beschreibung
id Zahl eindeutige ID
mode direct, freeIndirect, indirect, reported (und Kombinationen, getrennt durch Leerzeichen) Wiedergabetyp
content speech, thought, writing (und Kombinationen, getrennt durch Leerzeichen) Medium
level Zahl Grad der Einbettung in andere Wiedergaben
nonFact yes/no in der Textwelt nicht wirklich ausgeführte Rede, z.B. hypothetisch
prag yes/no pragmatisch anderer Zweck der Wiedergabe, z.B. Redewendungen
metaph yes/no metaphorische Wiedergabe
border unspec/state/percept Grenzfälle der Wiedergabe, z.B. Gefühle

Erweiterungen des TEI-Elements <seg>

Attribut Werte Attribut-Beschreibung
id Zahl eindeutige ID
pos start, mid, end Position der Redeeinleitungsphrase relativ zur Wiedergabe (wenn type=frame)

Das Attribut type von <seg> kodiert, für welche Information der Tag gebraucht wird. Optionen sind: frame, speaker, intExpr.

⚠️ **GitHub.com Fallback** ⚠️