Coding da Vinci Baden Württemberg 2022 - UB-Mannheim/Reichsanzeiger GitHub Wiki
Die UB Mannheim stellt online die Scans und per OCR erzeugte Volltexte für mehr als 700000 Seiten der Zeitung „Deutscher Reichsanzeiger und Preußischer Staatsanzeiger“ aus dem Erscheinungszeitraum 1819 bis 1945 unter der freien Lizenz Public Domain Mark 1.0 bereit. Als Staatszeitung war diese Zeitung amtliches Verkündungsblatt zunächst für das Königreich Preußen, ab 1871 dann auch für das gesamte Deutsche Reich.
Der Datensatz umfasst fast 2 Millionen Dateien / rund 1,2 TB Daten von insgesamt 8 OCR-Läufen (davon drei komplett). Beschränkt man sich auf einen OCR-Lauf, sind es rund 370000 Dateien / 229 GB Daten. Je nach gewünschter Anwendung wird nur eine Teilmenge davon benötigt, beispielsweise nur bestimmte Jahrgänge oder nur Ausgaben mit Warenzeichen.
Alle gescannten Seiten bzw. Doppelseiten sind im Format JPEG 2000 verfügbar. Zusätzlich können sie über einen Image Server im JPEG-Format – wahlweise auch als Ausschnitt – abgerufen werden.
Die OCR-Ergebnisse liegen im freien Format hOCR (in HTML beschriebene OCR-Ergebnisse) vor und lassen sich direkt mit den zugehörigen Digitalisaten (Seitenscans) verknüpfen, die ebenfalls frei abrufbar sind.
Alles, was man aus der Zeit von 1819 bis 1945 im Geschichtsunterricht gelernt hat, findet man als tagesaktuelle Berichte der Zeitung von damals. Die folgende Aufzählung ist nur beispielhaft, es gibt also noch viel mehr aus dieser Zeit zu entdecken.
- amtliche und nicht-amtliche Nachrichten und Agenturberichte aus Deutschland und der gesamten Welt
- Patente
- Ordensverleihungen
- Warenzeichen. Alle Anmeldungen von Warenzeichen (z. B. für neue Produkte wie Autos, Kosmetika, Waschmittel, Alkoholika, Zigarren, ...) sind – oft mit einer Abbildung – im Reichsanzeiger veröffentlicht.
- Handelsregistermeldungen, also insbesondere Firmengründungen und -auflösungen
- Börsenberichte, Preise für Rohstoffe und Lebensmittel, aber auch für Eisenbahn- und Schiffslinien
- Fahrpläne für Bahn- und Schiffsverbindungen (national und international)
- Wetterdaten, Wasserstände
- Erfindungen und zahlreiche Berichte dazu – nicht nur aber natürlich auch zu Autos und Flugzeugen (erste Flugversuche, frühe Flugschauen)
- Entdeckungen in Naturwissenschaften und Medizin, Impfungen, Röntgen
- Berichte über Entdeckungsreisen, beispielsweise nach Afghanistan oder in Afrika
- Berichte aus Kunst und Kultur, Theater- und Operaufführungen, Musiker wie beispielsweise Felix Mendelssohn Bartholdy und andere Künstler
- Politik, Wahlen, Berichte über Sitzungen des Reichstags
- Berichte aus den deutschen Kolonien in Afrika und China
- Hofklatsch und -tratsch, beispielsweise Ausritt des Kronprinzen, Bauchweh des königlichen Säuglings, Besuche ausländischer Delegationen, Einweihungen und Eröffnungen
- Nachrufe zu bedeutenden Persönlichkeiten
- Kriegsberichte aus viel zu vielen Kriegen – beispielsweise aus der Zeit der Deutschen Revolution von 1848/1849, des Deutsch-Französischen Kriegs von 1870 bis 1871, aus dem 1. Weltkrieg (mit ausführlichen Gefallenenlisten) und dem 2. Weltkrieg, aber auch über die Indianerkriege in Nordamerika wird berichtet
- Katastrophen, beispielsweise die Explosion im Oppauer Werk der BASF oder Überschwemmungen im Ahrtal (ja, die gab es schon öfter)
- Epedemien und Pandemien, beispielsweise die Spanische Grippe (vergleichbar Corona heute), Cholera und andere Seuchen
Denkbare Anwendungsbeispiele:
- textuelle Auswertungen wie beim Google Books Ngram Viewer (https://books.google.com/ngrams)
- Identifizierung von geographischen Namen, Ort- und Personennamen (named entity recognition)
- Landkarten mit den referenzierten Ortsnamen
- Personen
- Klassifizierung der Warenzeichenbilder per KI
- Visualisierung historischer Ereignisse unter Verwendung von zeitgenössischen Zeitungsmeldungen
- ...
Die vollständigen Bilder in maximaler Qualität liegen im Format JPEG-2000 vor (siehe Link unten). Je nach Anwendung ist es aber gar nicht notwendig, diese sehr großen Dateien herunterzuladen: alle Bilder lassen sich auch über einen Image-Server ganz oder auszugsweise in wählbarer Auflösung abrufen. Beispiele für die Warenzeichenbeilage vom 11. Juli 1913:
- komplettes Bild als JPEG-Datei in voller Größe – https://digi.bib.uni-mannheim.de/reichsanzeiger.fcgi?FIF=/reichsanzeiger/film/127-9533/0198.jp2&CVT=jpeg
- komplettes Bild im JPEG-Format mit Angabe der gewünschten Breite – https://digi.bib.uni-mannheim.de/reichsanzeiger.fcgi?FIF=/reichsanzeiger/film/127-9533/0198.jp2&WID=240&CVT=jpeg
- Online-Anzeige – https://digi.bib.uni-mannheim.de/viewer/reichsanzeiger/film/127-9533/0198.jp2
- alternative Online-Anzeige – https://digi.bib.uni-mannheim.de/viewer2/reichsanzeiger/film/127-9533/0198.jp2
- Downloadlink für JPEG-2000-Datei – https://ub-backup.bib.uni-mannheim.de/reichsanzeiger/film/127-9533/0198.jp2
- Bildausschnitt im JPEG-Format – https://digi.bib.uni-mannheim.de/reichsanzeiger.fcgi?FIF=/reichsanzeiger/film/127-9533/0198.jp2&RGN=0.75,0.8,0.1,0.09&WID=240&CVT=jpeg
Weitere Möglichkeiten des dabei verwendeten Protokolls (Internet Imaging Protocol) findet man in der entsprechenden Dokumentation.
Ebenfalls möglich ist ein Abruf mit dem verbreiteten Protokoll IIIF (International Image Interoperability Framework), siehe Dokumentation.
- Bildausschnitte im JPEG-Format –
https://digi.bib.uni-mannheim.de/reichsanzeiger.fcgi?IIIF=/reichsanzeiger/film/127-9533/0198.jp2/5200,2650,860,1400/240,/0/default.jpg
https://digi.bib.uni-mannheim.de/reichsanzeiger.fcgi?IIIF=/reichsanzeiger/film/127-9533/0198.jp2/8600,900,860,1400/240,/0/default.jpg
Die OCR-Daten im Format hOCR lassen sich beispielsweise mit dem Kommandozeilenprogramm wget
herunterladen. Für die neuesten OCR-Ergebnisse (siehe Link unten) ist das entsprechende Kommando
wget -m -np https://digi.bib.uni-mannheim.de/periodika/reichsanzeiger/ocr/film/tesseract-5.0.0-20211201/
Dafür braucht man viel Speicherplatz, hier beispielsweise rund 230 GB!
Für die Volltextdatenbank gibt es ein frei zugängliches API über das Suchfrontend Fess. Beispiel-URL: https://digi.bib.uni-mannheim.de/fess/json/?q=Mannheim.
Fess verwendet ElasticSearch, das per ElasticSearch API auch direkt angesprochen werden kann. Das ElasticSearch API ist aus dem Internet nicht direkt ansprechbar, kann aber nach Vereinbarung individuell zugänglich gemacht werden.
- Coding da Vinci Baden-Württemberg 2022 – https://codingdavinci.de/de/events/baden-wuerttemberg-2022
- Beschreibung und Einstieg – https://digi.bib.uni-mannheim.de/periodika/reichsanzeiger/
- Volltextsuche für die gesamte Zeitung – https://digi.bib.uni-mannheim.de/fess/
- Dokumentation Fess Search API – https://fess.codelibs.org/14.1/api/api-search.html
- Datensatz – https://digi.bib.uni-mannheim.de/periodika/reichsanzeiger/ocr/film/
- Scans der (Doppel-)Seiten
- Originale im JPEG-2000-Format (12 TB) – https://ub-backup.bib.uni-mannheim.de/reichsanzeiger/
- OCR-Ergebnisse im hOCR-Format
- erzeugt 2017 mit Tesseract 3 (vollständig, 288 GB) – https://digi.bib.uni-mannheim.de/periodika/reichsanzeiger/ocr/film/tesseract-3.x/
- erzeugt 2017 mit Tesseract 4 (vollständig, 237 GB) – https://digi.bib.uni-mannheim.de/periodika/reichsanzeiger/ocr/film/tesseract-4.0.0-alpha.20170703/
- erzeugt 2018 mit Tesseract 4 (vollständig, 229 GB) – https://digi.bib.uni-mannheim.de/periodika/reichsanzeiger/ocr/film/tesseract-4.0.0-20181201/
- erzeugt 2021 mit Tesseract 5 (vollständig, 229 GB) – https://digi.bib.uni-mannheim.de/periodika/reichsanzeiger/ocr/film/tesseract-5.0.0-20211201/
- OCR-Ergebnisse im ABBYY-Format (Auswahl, 65 GB) – https://digi.bib.uni-mannheim.de/periodika/reichsanzeiger/ocr/film/abbyy/abbyy/
- OCR-Ergebnisse im ALTO-Format (Auswahl, 102 GB) – https://digi.bib.uni-mannheim.de/periodika/reichsanzeiger/ocr/film/abbyy/alto/
- Scans der (Doppel-)Seiten
- UB Mannheim – https://www.bib.uni-mannheim.de/
- CdV-Projekt ansight – https://codingdavinci.de/de/projekte/ansights