XML Format - redewiedergabe/corpus GitHub Wiki
Unterordner: xml
Das Korpus setzt sich aus TEI-validen XML-Dateien zusammen. Jede davon enthält den Text eines Samples und die Annotationen des Redewiedergabeprojekts.
- TEI-Header mit grundsätzlichen Angaben
-
<fs>
-Element mit Metadaten des Samples im Stil des Redewiedergabeprojekts (vgl. Metadaten) - Der Text des Samples enthält folgende Tags:
<said>
(STWR-Annotation),<seg>
(Frame, Speaker, IntExpr-Annotation),<note>
(Markierung von Fußnotentext),<p>
(Absatz; umschließt jeweils den gesamten Sampletext)
Ein Schema vom Typ RelaxNG XML Syntax wurde erstellt, in dem die TEI Module für Linguistic corpora an das Annotationsschema des Redewiedergabe-Projekts angepasst wurden. Im folgenden Abschnitt wird beschrieben, welche Elemente wie erweitert wurden.
Schema: tei_rw_beta_corpus.rng
Attribut | Werte | Attribut-Beschreibung |
---|---|---|
id | Zahl | eindeutige ID |
mode | direct, freeIndirect, indirect, reported (und Kombinationen, getrennt durch Leerzeichen) | Wiedergabetyp |
content | speech, thought, writing (und Kombinationen, getrennt durch Leerzeichen) | Medium |
level | Zahl | Grad der Einbettung in andere Wiedergaben |
nonFact | yes/no | in der Textwelt nicht wirklich ausgeführte Rede, z.B. hypothetisch |
prag | yes/no | pragmatisch anderer Zweck der Wiedergabe, z.B. Redewendungen |
metaph | yes/no | metaphorische Wiedergabe |
border | unspec/state/percept | Grenzfälle der Wiedergabe, z.B. Gefühle |
Attribut | Werte | Attribut-Beschreibung |
---|---|---|
id | Zahl | eindeutige ID |
pos | start, mid, end | Position der Redeeinleitungsphrase relativ zur Wiedergabe (wenn type=frame) |
Das Attribut type
von <seg>
kodiert, für welche Information der Tag gebraucht wird. Optionen sind: frame, speaker, intExpr.