Die IxTheo MARC Pipeline - ubtue/ub_tools GitHub Wiki

Einführung

Daten werden im MARC-21-Format von einem BSZ-FTP-Server heruntergeladen, auf verschiedenste Art manipuliert und dann in einen Solr-Index importiert. Diese Prozesse sind mit Hilfe von diversen Bash- und Python-Skripten, welche als Cronjobs aufgeführt werden, automatisiert.

Die MARC-Pipeline

Die "MARC-Pipeline" ist ein Bash-Skript in welchem die BSZ-Daten verschiedene Verarbeitungsphase durchlaufen. Eine typische Phase besteht darin, dass MARC-Daten von einem Programm eingelesen werden, im Programm abgeändert werden und danach in eine neue MARC-Datei geschrieben werden.

Beschreibung der Phasen (Stand 2.7.2020)

Phase 0

Integritätscheck der vom BSZ gelieferten Daten.

Phase 1

Hinzufügen der Lokaldaten zu den Titeldatensätzen

Phase 2

Austausch von PPNs in verschieden SQL-Datenbanken für Datensätze wo sich die PPN geändert hat. (Dies kann durch das Zusammenführen bzw. Deduplizieren von Datensätzen beim BSZ verursacht werden.)

Phase 3

Hier wenden wir unsere Eigenentwicklung marc_filter an. marc_filter macht hier folgendes:

  • entfernt Datensätze die "mtex" im Unterfeld 935$a enthalten
  • entfernt 856 Felder mit Selbstreferenzen (zeigen auf den IxTheo)
  • entfernt Sortierzeichen aus den Titelfeldern
  • entfernt blmsh Subject Heading Terms
  • behebt Probleme bei der Groß- bzw. Kleinschreibung von wenigen, lokalen Schlagwörtern

Phase 4

Umschreiben von Autoren und standartisierten Schlüsselworten in den Titledaten mit Hilfe der Normdaten

Phase 5

Einfügen von fehlenden Querverweisen zwischen Titeldatensätzen.

Phase 6

Extraktion von Schlüsselwortübersetzungen und Erzeugen von Übersetzungsdateien für das VuFind-Interface

Phase 7

Anreichern von Normdaten mit Schlüsselwortübersetzungen

Phase 8

Einfügen von BEACON-Links in die Normdaten.

Phase 9

Kombinieren der Print- und Online-Datensätze von übergeordneten Werken

Phase 10

Erzeugen der Key-Value-Datenbanken für die Duplikaterkennungsheuristik

Phase 11

Querverlinkung von Print- und Online-Versionen von Zeitschriftenartikeln

Phase 12

Normalisierung und Deduplizierung von URLs in 856$u-Feldern

Phase 13

Verknüpfung von übergeordneten Werken mit ihren untergeordneten Werken und markieren von Werken, die abonniert werden können.

Phase 14

Einfügen von weiteren Open-Access-URLs

Phase 15

Extraktion von Normdatenübersetzungen

Phase 16

Einfügen von Autorensynonymen aus Normdaten in Titeldatensätzen

Phase 17

Kennzeichnen von Datensätzen, die Artikelsammlungen darstellen

Phase 18

Anreicherung von untergeordneten Werken mit den ISSNs und ISBNs ihrer übergeordneten Werke

Phase 19

Extraktion von Schlagworten aus den Titeln

Phase 20

Markieren von elektronischen Datensätzen

Phase 21

Anreicherung von Titelsätzen, die Bibelstellen referenzieren

Phase 22

Anreicherung von Titelsätzen, die Kirchenrechtstellen referenzieren

Phase 23

Anreicherung von Titelsätzen, die Zeitbereiche referenzieren

Phase 24

Verschieben der IxTheo-Notationen von Lokalfeldern nach 652$a

Phase 25

Umbenennung der 689$A-Unterfelder in 689$q (Falscher Unterfeldcode wird vom BSZ ausgeliefert.)

Phase 26

Anreicherung von IxTheo-Notationen mittels Abbildung von DDC- und RVK-Notationen

Phase 27

Anreicherung von Titeldatensynonymen durch Normdateneinträge

Phase 28

Füllen von fehlenden 773$a-Unterfeldern (Titel von übergeordneten Werken)

Phase 29

Markieren von zusätzlichen RelBib-relevanten Titelsätzen

Phase 30

Erzeugen eines einheitlichen Sortierjahres in den Titeldaten

Phase 31

Anreicherung der Titelsätze mit Referenzen aus Hinweissätzen

Phase 31

Markieren von Titelsätzen von Objekten, die in Tübingen verfügbar sind

Phase 32

Erzeugen und Hinzufügen von Pseudodatensätzen, die Subskriptionspakete repräsentieren.

Phase 33

Markieren von Datensätzen, die zu einem Subsystem gehören (aktuell nur RelBib)

Phase 34

Anhängen von neuen Datensätzen, die Nachlässe repräsentieren.

Phase 35

Markieren von Titelsätzen, die Kandidaten für PDA sind

Phase 36

Transitive Identifikation von zusätzlichen Datensätzen für Kirchenrecht, Religionswissenschaft, und Bible Studies (Z.B. über Querverweise zwischen Titeldatensätzen und Uplinks zu übergeordneten Werken etc.)

Phase 37

Export der Subsystem-Tags in die VuFind-SQL-Datenbank

Phase 38

Überprüfung der Integrität der Datensätze um Bugs in der Verarbeitung in der Pipeline zu finden

Phase 39

Löschen von temporären Dateien, welche in der Pipeline erzeugt wurden