Coding da Vinci Baden Württemberg 2022 - UB-Mannheim/Reichsanzeiger GitHub Wiki

Coding da Vinci Baden-Württemberg 2022

Datenset „Historische Zeitung“

Die UB Mannheim stellt online die Scans und per OCR erzeugte Volltexte für mehr als 700000 Seiten der Zeitung „Deutscher Reichsanzeiger und Preußischer Staatsanzeiger“ aus dem Erscheinungszeitraum 1819 bis 1945 unter der freien Lizenz Public Domain Mark 1.0 bereit. Als Staatszeitung war diese Zeitung amtliches Verkündungsblatt zunächst für das Königreich Preußen, ab 1871 dann auch für das gesamte Deutsche Reich.

Video: CdV BW 2022: UB Mannheim | Deutscher Reichsanzeiger und Preußischer Staatsanzeiger

Der Datensatz umfasst fast 2 Millionen Dateien / rund 1,2 TB Daten von insgesamt 8 OCR-Läufen (davon drei komplett). Beschränkt man sich auf einen OCR-Lauf, sind es rund 370000 Dateien / 229 GB Daten. Je nach gewünschter Anwendung wird nur eine Teilmenge davon benötigt, beispielsweise nur bestimmte Jahrgänge oder nur Ausgaben mit Warenzeichen.

Alle gescannten Seiten bzw. Doppelseiten sind im Format JPEG 2000 verfügbar. Zusätzlich können sie über einen Image Server im JPEG-Format – wahlweise auch als Ausschnitt – abgerufen werden.

Die OCR-Ergebnisse liegen im freien Format hOCR (in HTML beschriebene OCR-Ergebnisse) vor und lassen sich direkt mit den zugehörigen Digitalisaten (Seitenscans) verknüpfen, die ebenfalls frei abrufbar sind.

Was findet man in der Zeitung?

Alles, was man aus der Zeit von 1819 bis 1945 im Geschichtsunterricht gelernt hat, findet man als tagesaktuelle Berichte der Zeitung von damals. Die folgende Aufzählung ist nur beispielhaft, es gibt also noch viel mehr aus dieser Zeit zu entdecken.

  • amtliche und nicht-amtliche Nachrichten und Agenturberichte aus Deutschland und der gesamten Welt
  • Patente
  • Ordensverleihungen
  • Warenzeichen. Alle Anmeldungen von Warenzeichen (z. B. für neue Produkte wie Autos, Kosmetika, Waschmittel, Alkoholika, Zigarren, ...) sind – oft mit einer Abbildung – im Reichsanzeiger veröffentlicht.
  • Handelsregistermeldungen, also insbesondere Firmengründungen und -auflösungen
  • Börsenberichte, Preise für Rohstoffe und Lebensmittel, aber auch für Eisenbahn- und Schiffslinien
  • Fahrpläne für Bahn- und Schiffsverbindungen (national und international)
  • Wetterdaten, Wasserstände
  • Erfindungen und zahlreiche Berichte dazu – nicht nur aber natürlich auch zu Autos und Flugzeugen (erste Flugversuche, frühe Flugschauen)
  • Entdeckungen in Naturwissenschaften und Medizin, Impfungen, Röntgen
  • Berichte über Entdeckungsreisen, beispielsweise nach Afghanistan oder in Afrika
  • Berichte aus Kunst und Kultur, Theater- und Operaufführungen, Musiker wie beispielsweise Felix Mendelssohn Bartholdy und andere Künstler
  • Politik, Wahlen, Berichte über Sitzungen des Reichstags
  • Berichte aus den deutschen Kolonien in Afrika und China
  • Hofklatsch und -tratsch, beispielsweise Ausritt des Kronprinzen, Bauchweh des königlichen Säuglings, Besuche ausländischer Delegationen, Einweihungen und Eröffnungen
  • Nachrufe zu bedeutenden Persönlichkeiten
  • Kriegsberichte aus viel zu vielen Kriegen – beispielsweise aus der Zeit der Deutschen Revolution von 1848/1849, des Deutsch-Französischen Kriegs von 1870 bis 1871, aus dem 1. Weltkrieg (mit ausführlichen Gefallenenlisten) und dem 2. Weltkrieg, aber auch über die Indianerkriege in Nordamerika wird berichtet
  • Katastrophen, beispielsweise die Explosion im Oppauer Werk der BASF oder Überschwemmungen im Ahrtal (ja, die gab es schon öfter)
  • Epedemien und Pandemien, beispielsweise die Spanische Grippe (vergleichbar Corona heute), Cholera und andere Seuchen

Denkbare Anwendungsbeispiele:

  • textuelle Auswertungen wie beim Google Books Ngram Viewer (https://books.google.com/ngrams)
  • Identifizierung von geographischen Namen, Ort- und Personennamen (named entity recognition)
    • Landkarten mit den referenzierten Ortsnamen
    • Personen
  • Klassifizierung der Warenzeichenbilder per KI
  • Visualisierung historischer Ereignisse unter Verwendung von zeitgenössischen Zeitungsmeldungen
  • ...

Tipps zum Datenverarbeitung

Download Bilder (Digitalisate, Seitenscans)

Die vollständigen Bilder in maximaler Qualität liegen im Format JPEG-2000 vor (siehe Link unten). Je nach Anwendung ist es aber gar nicht notwendig, diese sehr großen Dateien herunterzuladen: alle Bilder lassen sich auch über einen Image-Server ganz oder auszugsweise in wählbarer Auflösung abrufen. Beispiele für die Warenzeichenbeilage vom 11. Juli 1913:

Weitere Möglichkeiten des dabei verwendeten Protokolls (Internet Imaging Protocol) findet man in der entsprechenden Dokumentation.

Ebenfalls möglich ist ein Abruf mit dem verbreiteten Protokoll IIIF (International Image Interoperability Framework), siehe Dokumentation.

Download OCR-Daten

Die OCR-Daten im Format hOCR lassen sich beispielsweise mit dem Kommandozeilenprogramm wget herunterladen. Für die neuesten OCR-Ergebnisse (siehe Link unten) ist das entsprechende Kommando

wget -m -np https://digi.bib.uni-mannheim.de/periodika/reichsanzeiger/ocr/film/tesseract-5.0.0-20211201/

Dafür braucht man viel Speicherplatz, hier beispielsweise rund 230 GB!

API für Suche

Für die Volltextdatenbank gibt es ein frei zugängliches API über das Suchfrontend Fess. Beispiel-URL: https://digi.bib.uni-mannheim.de/fess/json/?q=Mannheim.

Fess verwendet ElasticSearch, das per ElasticSearch API auch direkt angesprochen werden kann. Das ElasticSearch API ist aus dem Internet nicht direkt ansprechbar, kann aber nach Vereinbarung individuell zugänglich gemacht werden.

Links

⚠️ **GitHub.com Fallback** ⚠️