Das Redewiedergabe Korpus - redewiedergabe/corpus GitHub Wiki

Beteiligte

Das Redewiedergabe-Korpus wird im DFG-geförderten Projekt "Redewiedergabe. Eine literatur- und sprachwissenschaftliche Korpusanalyse" in einer Kooperation zwischen dem Leibniz-Institut für Deutsche Sprache Mannheim (Abteilung Lexik) und der Universität Würzburg (Lehrstuhl für Computerphilologie und Neuere Deutsche Literaturgeschichte) erstellt.

Beteiligte Personen: Annelen Brunner (IDS Mannheim), Stefan Engelberg (IDS Mannheim), Fotis Jannidis (Universität Würzburg), Ngoc Duyen Tanja Tu (IDS Mannheim), Lukas Weimer (Universität Würzburg).

Bei der Annotation mitgewirkt haben zudem: Sarah Gorke, Anna Hartmann, Janne Lorenzen, Christoph Peterek, Laura Schäfer, Lisa Sergel und Theresa Valta.

Projekthomepage: www.redewiedergabe.de

Quellen und Textmaterial

Das Redewiedergabe-Korpus ist ein historisches Korpus fiktionaler und nicht-fiktionaler Texte. Diese Texte stammen aus dem Zeitraum 1840-1920 und beruhen auf drei Textquellen:

  • Erzähltexte aus der Digitalen Bibliothek, in TEI-Format konvertiert vom Projekt TextGrid
  • Texte der Zeitschrift "Die Grenzboten", digitalisiert von der Universitätsbibliothek Bremen (Quellenangabe: Die Grenzboten: Zeitschrift für Politik, Literatur und Kunst. Berlin: Dt. Verl, 1841-1922. Staats- und Universitätsbibliothek Bremen, Ac 7155 Public Domain Mark 1.0), in das DTA-Basisformat (TEI) konvertiert durch das Deutsche Textarchiv und vom Redewiedergabe-Projekt OCR-korrigiert.
  • Texte aus dem Mannheimer Korpus Historischer Zeitungen und Zeitschriften, bereitgestellt vom Institut für Deutsche Sprache Mannheim und konvertiert ins DTA-Basisformat (TEI) durch das Deutsche Textarchiv.

Das Korpus enthält keine Volltexte, sondern Auschnitte ('Samples') von mindestens 500 Wörtern bei Texten der Digitalen Bibliothek bzw. mindestens 200 Wörtern bei Zeitungstexten. Die Samples wurden randomisiert aus dem vorhandenen Textmaterial gezogen, mit folgenden Besonderheiten: Bei den Texten der Digitalen Bibliothek wurde erzwungen, dass jeder vertretene Autor innerhalb einer Dekade gleichmäßig berücksichtigt wird. Entsprechend wurde beim MKHZ erzwungen, dass die in einer Dekade vertretenen unterschiedlichen Zeitungen/Zeitschriften gleichmäßig berücksichtigt werden. Damit wurde verhindert, dass Autoren bzw. Zeitungen/Zeitschriften mit wenig Material beim Sampling-Prozess vollkommen herausfallen.

Jedes Sample enthält Metadaten mit Informationen über Erscheinungszeitpunkt, Texttyp, Fiktionalität und - sofern auffindbar - Titel und Autor (genauere Angaben verfügbar unter Metadaten).

Lizenz

Creative Commons Lizenzvertrag
Das Redewiedergabe-Korpus ist lizenziert unter einer Creative Commons Namensnennung - Nicht-kommerziell - Weitergabe unter gleichen Bedingungen 4.0 International-Lizenz.

Wir bitten um Nennung des Projekts "Redewiedergabe" bezüglich der Annotation, sowie des Projekts TextGrid, des Deutschen Textarchivs, des Leibniz-Instituts für Deutsche Sprache und der Universitätsbibliothek Bremen bezüglich der zugrunde liegenden Texte.

Annotation

Das Korpus enthält eine detaillierte Annotation mit Fomen von Rede-, Gedanken- und Schriftwiedergabe. Unterschieden werden die vier Typen direkte (Er sagte: "Ich bin hungrig."), indirekte (Er sagte, er sei hungrig.), freie indirekte (Wo sollte er jetzt etwas zu Essen herbekommen?) und erzählte (Er sprach über Restaurants.) Wiedergabe, sowie die drei Medien Rede, Gedanke oder Schrift. Außerdem sind die Merkmale wie Einbettungsgrad, Nicht-Faktizität, Grenzfälle, pragmatische und metaphorische Verwendung annotiert, sowie Rahmenformeln, Redeeinleiter und Sprecher.

Jedes Sample des Korpus wurde von zwei unterschiedlichen Personen unabhängig von einander annotiert. Die finale Annotation wurde auf Basis dieser Annotationen von einer dritten Person erstellt.

Die detaillierten Annotationsrichtlinien sind verfügbar unter redewiedergabe.de/richtlinien/richtlinien.html.

Ein Überblick über die Struktur der Annotationen ist verfügbar unter Annotationsstruktur.

Größe

Aktuell zur Verfügung steht das Beta-Release des Korpus. Bis zum Ende der Projektlaufzeit (Frühjahr 2020) werden noch Erweiterungen und anderes annotiertes Material ergänzt werden.

Das Beta-Release besteht aus insgesamt 620 Samples und 361.245 Tokens. Die Tokenzahl verteilt sich in etwa ausgeglichen auf fiktionale und nicht-fiktionale Textausschnitte. Insgesamt sind 9.451 Instanzen von Redewiedergabe annotiert, sowie zahlreiche Zusatzinformationen wie die oben genannten Attribute, Redeeinleitungen und Sprecher.

Genauere statistische Angaben

Format

Das Korpus ist in zwei Formaten verfügbar:

⚠️ **GitHub.com Fallback** ⚠️