Coding da Vinci Baden Württemberg 2022 - UB-Mannheim/Reichsanzeiger GitHub Wiki

Coding da Vinci Baden-Württemberg 2022

Datenset „Historische Zeitung“

Die UB Mannheim stellt online die Scans und per OCR erzeugte Volltexte für mehr als 700000 Seiten der Zeitung „Deutscher Reichsanzeiger und Preußischer Staatsanzeiger“ aus dem Erscheinungszeitraum 1819 bis 1945 unter der freien Lizenz Public Domain Mark 1.0 bereit. Als Staatszeitung war diese Zeitung amtliches Verkündungsblatt zunächst für das Königreich Preußen, ab 1871 dann auch für das gesamte Deutsche Reich.

Video: CdV BW 2022: UB Mannheim | Deutscher Reichsanzeiger und Preußischer Staatsanzeiger

Der Datensatz umfasst fast 2 Millionen Dateien / rund 1,2 TB Daten von insgesamt 8 OCR-Läufen (davon drei komplett). Beschränkt man sich auf einen OCR-Lauf, sind es rund 370000 Dateien / 229 GB Daten. Je nach gewünschter Anwendung wird nur eine Teilmenge davon benötigt, beispielsweise nur bestimmte Jahrgänge oder nur Ausgaben mit Warenzeichen.

Alle gescannten Seiten bzw. Doppelseiten sind im Format JPEG 2000 verfügbar. Zusätzlich können sie über einen Image Server im JPEG-Format – wahlweise auch als Ausschnitt – abgerufen werden.

Die OCR-Ergebnisse liegen im freien Format hOCR (in HTML beschriebene OCR-Ergebnisse) vor und lassen sich direkt mit den zugehörigen Digitalisaten (Seitenscans) verknüpfen, die ebenfalls frei abrufbar sind.

Was findet man in der Zeitung?

Alles, was man aus der Zeit von 1819 bis 1945 im Geschichtsunterricht gelernt hat, findet man als tagesaktuelle Berichte der Zeitung von damals. Die folgende Aufzählung ist nur beispielhaft, es gibt also noch viel mehr aus dieser Zeit zu entdecken.

amtliche und nicht-amtliche Nachrichten und Agenturberichte aus Deutschland und der gesamten Welt
Patente
Ordensverleihungen
Warenzeichen. Alle Anmeldungen von Warenzeichen (z. B. für neue Produkte wie Autos, Kosmetika, Waschmittel, Alkoholika, Zigarren, ...) sind – oft mit einer Abbildung – im Reichsanzeiger veröffentlicht.
Handelsregistermeldungen, also insbesondere Firmengründungen und -auflösungen
Börsenberichte, Preise für Rohstoffe und Lebensmittel, aber auch für Eisenbahn- und Schiffslinien
Fahrpläne für Bahn- und Schiffsverbindungen (national und international)
Wetterdaten, Wasserstände
Erfindungen und zahlreiche Berichte dazu – nicht nur aber natürlich auch zu Autos und Flugzeugen (erste Flugversuche, frühe Flugschauen)
Entdeckungen in Naturwissenschaften und Medizin, Impfungen, Röntgen
Berichte über Entdeckungsreisen, beispielsweise nach Afghanistan oder in Afrika
Berichte aus Kunst und Kultur, Theater- und Operaufführungen, Musiker wie beispielsweise Felix Mendelssohn Bartholdy und andere Künstler
Politik, Wahlen, Berichte über Sitzungen des Reichstags
Berichte aus den deutschen Kolonien in Afrika und China
Hofklatsch und -tratsch, beispielsweise Ausritt des Kronprinzen, Bauchweh des königlichen Säuglings, Besuche ausländischer Delegationen, Einweihungen und Eröffnungen
Nachrufe zu bedeutenden Persönlichkeiten
Kriegsberichte aus viel zu vielen Kriegen – beispielsweise aus der Zeit der Deutschen Revolution von 1848/1849, des Deutsch-Französischen Kriegs von 1870 bis 1871, aus dem 1. Weltkrieg (mit ausführlichen Gefallenenlisten) und dem 2. Weltkrieg, aber auch über die Indianerkriege in Nordamerika wird berichtet
Katastrophen, beispielsweise die Explosion im Oppauer Werk der BASF oder Überschwemmungen im Ahrtal (ja, die gab es schon öfter)
Epedemien und Pandemien, beispielsweise die Spanische Grippe (vergleichbar Corona heute), Cholera und andere Seuchen

Denkbare Anwendungsbeispiele:

textuelle Auswertungen wie beim Google Books Ngram Viewer (https://books.google.com/ngrams)
Identifizierung von geographischen Namen, Ort- und Personennamen (named entity recognition)
- Landkarten mit den referenzierten Ortsnamen
- Personen
Klassifizierung der Warenzeichenbilder per KI
Visualisierung historischer Ereignisse unter Verwendung von zeitgenössischen Zeitungsmeldungen
...

Tipps zum Datenverarbeitung

Download Bilder (Digitalisate, Seitenscans)

Die vollständigen Bilder in maximaler Qualität liegen im Format JPEG-2000 vor (siehe Link unten). Je nach Anwendung ist es aber gar nicht notwendig, diese sehr großen Dateien herunterzuladen: alle Bilder lassen sich auch über einen Image-Server ganz oder auszugsweise in wählbarer Auflösung abrufen. Beispiele für die Warenzeichenbeilage vom 11. Juli 1913:

komplettes Bild als JPEG-Datei in voller Größe – https://digi.bib.uni-mannheim.de/reichsanzeiger.fcgi?FIF=/reichsanzeiger/film/127-9533/0198.jp2&CVT=jpeg
komplettes Bild im JPEG-Format mit Angabe der gewünschten Breite – https://digi.bib.uni-mannheim.de/reichsanzeiger.fcgi?FIF=/reichsanzeiger/film/127-9533/0198.jp2&WID=240&CVT=jpeg
Online-Anzeige – https://digi.bib.uni-mannheim.de/viewer/reichsanzeiger/film/127-9533/0198.jp2
alternative Online-Anzeige – https://digi.bib.uni-mannheim.de/viewer2/reichsanzeiger/film/127-9533/0198.jp2
Downloadlink für JPEG-2000-Datei – https://ub-backup.bib.uni-mannheim.de/reichsanzeiger/film/127-9533/0198.jp2
Bildausschnitt im JPEG-Format – https://digi.bib.uni-mannheim.de/reichsanzeiger.fcgi?FIF=/reichsanzeiger/film/127-9533/0198.jp2&RGN=0.75,0.8,0.1,0.09&WID=240&CVT=jpeg

Weitere Möglichkeiten des dabei verwendeten Protokolls (Internet Imaging Protocol) findet man in der entsprechenden Dokumentation.

Ebenfalls möglich ist ein Abruf mit dem verbreiteten Protokoll IIIF (International Image Interoperability Framework), siehe Dokumentation.

Bildausschnitte im JPEG-Format –
https://digi.bib.uni-mannheim.de/reichsanzeiger.fcgi?IIIF=/reichsanzeiger/film/127-9533/0198.jp2/5200,2650,860,1400/240,/0/default.jpg
https://digi.bib.uni-mannheim.de/reichsanzeiger.fcgi?IIIF=/reichsanzeiger/film/127-9533/0198.jp2/8600,900,860,1400/240,/0/default.jpg

Download OCR-Daten

Die OCR-Daten im Format hOCR lassen sich beispielsweise mit dem Kommandozeilenprogramm wget herunterladen. Für die neuesten OCR-Ergebnisse (siehe Link unten) ist das entsprechende Kommando

wget -m -np https://digi.bib.uni-mannheim.de/periodika/reichsanzeiger/ocr/film/tesseract-5.0.0-20211201/

Dafür braucht man viel Speicherplatz, hier beispielsweise rund 230 GB!

API für Suche

Für die Volltextdatenbank gibt es ein frei zugängliches API über das Suchfrontend Fess. Beispiel-URL: https://digi.bib.uni-mannheim.de/fess/json/?q=Mannheim.

Fess verwendet ElasticSearch, das per ElasticSearch API auch direkt angesprochen werden kann. Das ElasticSearch API ist aus dem Internet nicht direkt ansprechbar, kann aber nach Vereinbarung individuell zugänglich gemacht werden.

Links

Coding da Vinci Baden-Württemberg 2022 – https://codingdavinci.de/de/events/baden-wuerttemberg-2022
- Datenportal – https://codingdavinci.de/daten/deutscher-reichsanzeiger-und-preussischer-staatsanzeiger
Beschreibung und Einstieg – https://digi.bib.uni-mannheim.de/periodika/reichsanzeiger/
Volltextsuche für die gesamte Zeitung – https://digi.bib.uni-mannheim.de/fess/
Dokumentation Fess Search API – https://fess.codelibs.org/14.1/api/api-search.html
Datensatz – https://digi.bib.uni-mannheim.de/periodika/reichsanzeiger/ocr/film/
- Scans der (Doppel-)Seiten
  - Originale im JPEG-2000-Format (12 TB) – https://ub-backup.bib.uni-mannheim.de/reichsanzeiger/
- OCR-Ergebnisse im hOCR-Format
  - erzeugt 2017 mit Tesseract 3 (vollständig, 288 GB) – https://digi.bib.uni-mannheim.de/periodika/reichsanzeiger/ocr/film/tesseract-3.x/
  - erzeugt 2017 mit Tesseract 4 (vollständig, 237 GB) – https://digi.bib.uni-mannheim.de/periodika/reichsanzeiger/ocr/film/tesseract-4.0.0-alpha.20170703/
  - erzeugt 2018 mit Tesseract 4 (vollständig, 229 GB) – https://digi.bib.uni-mannheim.de/periodika/reichsanzeiger/ocr/film/tesseract-4.0.0-20181201/
  - erzeugt 2021 mit Tesseract 5 (vollständig, 229 GB) – https://digi.bib.uni-mannheim.de/periodika/reichsanzeiger/ocr/film/tesseract-5.0.0-20211201/
- OCR-Ergebnisse im ABBYY-Format (Auswahl, 65 GB) – https://digi.bib.uni-mannheim.de/periodika/reichsanzeiger/ocr/film/abbyy/abbyy/
- OCR-Ergebnisse im ALTO-Format (Auswahl, 102 GB) – https://digi.bib.uni-mannheim.de/periodika/reichsanzeiger/ocr/film/abbyy/alto/
UB Mannheim – https://www.bib.uni-mannheim.de/
CdV-Projekt ansight – https://codingdavinci.de/de/projekte/ansights
- https://github.com/joelosw/ansights

Coding da Vinci Baden Württemberg 2022 - UB-Mannheim/Reichsanzeiger GitHub Wiki