Die KrimDok MARC Pipeline - ubtue/ub_tools GitHub Wiki
Einführung
Daten werden im MARC-21-Format von einem BSZ-FTP-Server heruntergeladen, auf verschiedenste Art manipuliert und dann in einen Solr-Index importiert. Diese Prozesse sind mit Hilfe von diversen Bash- und Python-Skripten, welche als Cronjobs aufgeführt werden, automatisiert.
Die MARC-Pipeline
Die "MARC-Pipeline" ist ein Bash-Skript in welchem die BSZ-Daten verschiedene Verarbeitungsphase durchlaufen. Eine typische Phase besteht darin, dass MARC-Daten von einem Programm eingelesen werden, im Programm abgeändert werden und danach in eine neue MARC-Datei geschrieben werden.
Beschreibung der Phasen (Stand 2.7.2020)
Phase 0
Integritätscheck der vom BSZ gelieferten Daten.
Phase 1
Hinzufügen der Lokaldaten zu den Titeldatensätzen
Phase 2
Austausch von PPNs in verschieden SQL-Datenbanken für Datensätze wo sich die PPN geändert hat. (Dies kann durch das Zusammenführen bzw. Deduplizieren von Datensätzen beim BSZ verursacht werden.)
Phase 3
Normalisierung und Deduplizierung von URLs in 856$u-Feldern
Phase 4
Einfügen von Autorensynonymen aus Normdaten in Titeldatensätzen
Phase 5
Markieren von Titelsätzen, die Kandidaten für PDA sind
Phase 6
Markieren von elektronischen und Open-Access Datensätzen
Phase 7
Anreicherung von untergeordneten Werken mit den ISSNs und ISBNs ihrer übergeordneten Werke
Phase 8
Erstellen der Volltextdatenbank
Phase 9
Markieren von Titelsätzen von Objekten, die in Tübingen verfügbar sind
Phase 10
Füllen von fehlenden 773$a-Unterfeldern (Titel von übergeordneten Werken)
Phase 11
Erzeugen eines einheitlichen Sortierjahres in den Titeldaten
Phase 12
Verknüpfung von übergeordneten Werken mit ihren untergeordneten Werken und markieren von Werken, die abonniert werden können.
Phase 13
Einfügen von weiteren Open-Access-URLs
Phase 14
Überprüfung der Integrität der Datensätze um Bugs in der Verarbeitung in der Pipeline zu finden
Phase 15
Löschen von temporären Dateien, welche in der Pipeline erzeugt wurden