Die IxTheo MARC Pipeline - ubtue/ub_tools GitHub Wiki
Einführung
Daten werden im MARC-21-Format von einem BSZ-FTP-Server heruntergeladen, auf verschiedenste Art manipuliert und dann in einen Solr-Index importiert. Diese Prozesse sind mit Hilfe von diversen Bash- und Python-Skripten, welche als Cronjobs aufgeführt werden, automatisiert.
Die MARC-Pipeline
Die "MARC-Pipeline" ist ein Bash-Skript in welchem die BSZ-Daten verschiedene Verarbeitungsphase durchlaufen. Eine typische Phase besteht darin, dass MARC-Daten von einem Programm eingelesen werden, im Programm abgeändert werden und danach in eine neue MARC-Datei geschrieben werden.
Beschreibung der Phasen (Stand 2.7.2020)
Phase 0
Integritätscheck der vom BSZ gelieferten Daten.
Phase 1
Hinzufügen der Lokaldaten zu den Titeldatensätzen
Phase 2
Austausch von PPNs in verschieden SQL-Datenbanken für Datensätze wo sich die PPN geändert hat. (Dies kann durch das Zusammenführen bzw. Deduplizieren von Datensätzen beim BSZ verursacht werden.)
Phase 3
Hier wenden wir unsere Eigenentwicklung marc_filter
an. marc_filter
macht hier folgendes:
- entfernt Datensätze die "mtex" im Unterfeld 935$a enthalten
- entfernt 856 Felder mit Selbstreferenzen (zeigen auf den IxTheo)
- entfernt Sortierzeichen aus den Titelfeldern
- entfernt blmsh Subject Heading Terms
- behebt Probleme bei der Groß- bzw. Kleinschreibung von wenigen, lokalen Schlagwörtern
Phase 4
Umschreiben von Autoren und standartisierten Schlüsselworten in den Titledaten mit Hilfe der Normdaten
Phase 5
Einfügen von fehlenden Querverweisen zwischen Titeldatensätzen.
Phase 6
Extraktion von Schlüsselwortübersetzungen und Erzeugen von Übersetzungsdateien für das VuFind-Interface
Phase 7
Anreichern von Normdaten mit Schlüsselwortübersetzungen
Phase 8
Einfügen von BEACON-Links in die Normdaten.
Phase 9
Kombinieren der Print- und Online-Datensätze von übergeordneten Werken
Phase 10
Erzeugen der Key-Value-Datenbanken für die Duplikaterkennungsheuristik
Phase 11
Querverlinkung von Print- und Online-Versionen von Zeitschriftenartikeln
Phase 12
Normalisierung und Deduplizierung von URLs in 856$u-Feldern
Phase 13
Verknüpfung von übergeordneten Werken mit ihren untergeordneten Werken und markieren von Werken, die abonniert werden können.
Phase 14
Einfügen von weiteren Open-Access-URLs
Phase 15
Extraktion von Normdatenübersetzungen
Phase 16
Einfügen von Autorensynonymen aus Normdaten in Titeldatensätzen
Phase 17
Kennzeichnen von Datensätzen, die Artikelsammlungen darstellen
Phase 18
Anreicherung von untergeordneten Werken mit den ISSNs und ISBNs ihrer übergeordneten Werke
Phase 19
Extraktion von Schlagworten aus den Titeln
Phase 20
Markieren von elektronischen Datensätzen
Phase 21
Anreicherung von Titelsätzen, die Bibelstellen referenzieren
Phase 22
Anreicherung von Titelsätzen, die Kirchenrechtstellen referenzieren
Phase 23
Anreicherung von Titelsätzen, die Zeitbereiche referenzieren
Phase 24
Verschieben der IxTheo-Notationen von Lokalfeldern nach 652$a
Phase 25
Umbenennung der 689$A-Unterfelder in 689$q (Falscher Unterfeldcode wird vom BSZ ausgeliefert.)
Phase 26
Anreicherung von IxTheo-Notationen mittels Abbildung von DDC- und RVK-Notationen
Phase 27
Anreicherung von Titeldatensynonymen durch Normdateneinträge
Phase 28
Füllen von fehlenden 773$a-Unterfeldern (Titel von übergeordneten Werken)
Phase 29
Markieren von zusätzlichen RelBib-relevanten Titelsätzen
Phase 30
Erzeugen eines einheitlichen Sortierjahres in den Titeldaten
Phase 31
Anreicherung der Titelsätze mit Referenzen aus Hinweissätzen
Phase 31
Markieren von Titelsätzen von Objekten, die in Tübingen verfügbar sind
Phase 32
Erzeugen und Hinzufügen von Pseudodatensätzen, die Subskriptionspakete repräsentieren.
Phase 33
Markieren von Datensätzen, die zu einem Subsystem gehören (aktuell nur RelBib)
Phase 34
Anhängen von neuen Datensätzen, die Nachlässe repräsentieren.
Phase 35
Markieren von Titelsätzen, die Kandidaten für PDA sind
Phase 36
Transitive Identifikation von zusätzlichen Datensätzen für Kirchenrecht, Religionswissenschaft, und Bible Studies (Z.B. über Querverweise zwischen Titeldatensätzen und Uplinks zu übergeordneten Werken etc.)
Phase 37
Export der Subsystem-Tags in die VuFind-SQL-Datenbank
Phase 38
Überprüfung der Integrität der Datensätze um Bugs in der Verarbeitung in der Pipeline zu finden
Phase 39
Löschen von temporären Dateien, welche in der Pipeline erzeugt wurden