Metadaten - redewiedergabe/corpus GitHub Wiki
Korpusdateien
Das Korpus setzt sich aus mehreren Samples zusammen, wobei jedes Sample einen zufällig gezogenen Ausschnitt aus einem Text darstellt.
Die Dateinamen sind folgendermaßen aufgebaut:
textquelle_textid_samplenummer
Beispiel: digbib_123_2
bedeutet: Dies ist der zweite gezogenen Ausschnitt aus dem Text mit der (projektinternen) ID 123, der aus Textquelle digbib stammt.
Wenn samplenummer 'short' lautet statt einer Zahl, bedeutet dies, dass es sich um einen vollständigen Text handelt (keine Auszug), der weniger als 500 Wörter hat (dies sind immer Texte aus Zeitungen/Zeitschriften).
Metadatentabelle
Metadatum | Werte | Beschreibung |
---|---|---|
year | Zahl zwischen 1840 und 1919 | Erscheinungsjahr des Textes (bei digBib-Texten: Ersterscheinungsjahr, falls verfügbar) |
decade | Zahl in 10er Schritten | Erscheinungsdekade des Textes |
source | digbib, grenz, mkhz | Textquelle; bei mkhz wird noch ein Kürzel für die jeweilige Zeitung/Zeitschrift beigefügt |
title | String, undefined | Titel des Textes, falls bekannt |
author | String, undefined | Autor des Textes, falls bekannt |
fictional | yes, no | Ist der Textausschnitt fiktional? |
text_type | Erzähltext, Kommentar, Anzeige, Reportage, Nachrichten, Biographie, Rezension, Reisebericht/Brief, unsure | Texttyp; wenn ein Ausschnitt mehrere Texttypen enthält (z.B. Kommentar und Anzeigen), wird nach dem dominanten Typ klassifiziert oder ansonsten ‚unsure’ vergeben |
Auflösung der Zeitungskürzel der Textquelle mkhz
Die Abkürzungen entsprechen den Benennungen der Quelltexte im DTA-Archiv.
Zeitung | Abkürzung |
---|---|
Badener Zeitung | badener |
Czernowitzer Allg. Zeitung | czernowitzer |
Mährisches Tagblatt | maehrisches |
Marburger Zeitung | marburger |
Reichspost | reichspost |
St. Galler Volksblatt | stgaller |
Arbeitgeber. Archiv für die gesammte Volkswirtschaft, Central-Anzeiger für Stellen- und Arbeitgebergesuche | arbeitgeber |
Allgemeine Zeitung | augsburg |
Allgemeine Auswanderungs-Zeitung | auswanderer |
Deutsche Auswanderer-Zeitung | auswandererzeitung |
Die Bayerische Presse | bayerische |
Bayreuther Zeitungen | bayreuther |
Berlinische Nachrichten von Staats- und gelehrten Sachen | berlin |
Berlinische Privilegierte Zeitung | berlinpz |
Tübinger Chronik | chronik |
Conversations-Blatt zur Unterhaltung und Belehrung für alle Stände | conversationsblatt |
Europa. Wochenschrift für Kultur und Politik | europa |
Das Heller-Blatt oder Magazin zur Verbreitung gemeinnütziger Kenntnisse | heller |
Märkische Blätter. Wochenblatt für belehrende und angenehme Unterhaltung | maerkische |
Mainzer Journal | mainzerjournal |
Morgenblatt für gebildete Leser | morgenblatt |
Das wohlfeilste Panorama des Universums zur erheiternden Belehrung für Jedermann und alle Länder | panorama |
Das Pfennig-Magazin für Belehrung und Unterhaltung | pfennig |
Social-politische Blätter | social |
Sonntags-Blatt | sonntagsblatt |
Der allerneuesten Europäischen Welt- und Staats-Geschichte II. Theil | weltgeschichte |
Wiener Zeitung | wiener |