Metadata - redewiedergabe/corpus GitHub Wiki
Corpus files
The corpus consists of several samples. Each sample is a randomly drawn excerpt from a text.
The file names are structured as follows:
rwk_source_textid_samplenumber
Example: rwk_digbib_123_2
means: This is the second excerpt drawn from a text with the (project-internal) ID 123. The text comes from the source digbib (Digitale Bibliothek).
Metadata table
Metadatum | Values | Description |
---|---|---|
year | Number between 1840 and 1919 | publication year of the text (for digBib texts: year of first publication, if available) |
decade | Number in steps of 10 | publication decade of the text |
source | digbib, grenz, mkhz | source of the text; for mkhz the shorthand for the periodical is added after a dot. |
title | String, Undefined | Title of the text, if available |
author | String, Undefined | Author of the text, if available |
fictional | yes, no | Is the text sample fictional? |
text_type | Erzähltext, Kommentar, Anzeige, Reportage, Nachrichten, Biographie, Rezension, Reisebericht/Brief, unsure | Type of the text; if a sample contains several different texts (e.g. Kommentar and Anzeige), the dominant type is used for classification or the value is set to 'unsure' |
Shorthands for periodicals of source mkhz
Example: mkhz.badener
means: This sample comes from Badener Zeitung.
The shorthands correspond to the shorthands used for the newspapers/magazines in the DTA archive.
Periodical | Shorthand |
---|---|
Badener Zeitung | badener |
Czernowitzer Allg. Zeitung | czernowitzer |
Mährisches Tagblatt | maehrisches |
Marburger Zeitung | marburger |
Reichspost | reichspost |
St. Galler Volksblatt | stgaller |
Arbeitgeber. Archiv für die gesammte Volkswirtschaft, Central-Anzeiger für Stellen- und Arbeitgebergesuche | arbeitgeber |
Allgemeine Zeitung | augsburg |
Allgemeine Auswanderungs-Zeitung | auswanderer |
Deutsche Auswanderer-Zeitung | auswandererzeitung |
Die Bayerische Presse | bayerische |
Bayreuther Zeitungen | bayreuther |
Berlinische Nachrichten von Staats- und gelehrten Sachen | berlin |
Berlinische Privilegierte Zeitung | berlinpz |
Tübinger Chronik | chronik |
Conversations-Blatt zur Unterhaltung und Belehrung für alle Stände | conversationsblatt |
Europa. Wochenschrift für Kultur und Politik | europa |
Das Heller-Blatt oder Magazin zur Verbreitung gemeinnütziger Kenntnisse | heller |
Märkische Blätter. Wochenblatt für belehrende und angenehme Unterhaltung | maerkische |
Mainzer Journal | mainzerjournal |
Morgenblatt für gebildete Leser | morgenblatt |
Das wohlfeilste Panorama des Universums zur erheiternden Belehrung für Jedermann und alle Länder | panorama |
Das Pfennig-Magazin für Belehrung und Unterhaltung | pfennig |
Social-politische Blätter | social |
Sonntags-Blatt | sonntagsblatt |
Der allerneuesten Europäischen Welt- und Staats-Geschichte II. Theil | weltgeschichte |
Wiener Zeitung | wiener |