Zotero Harvester Weboberfläche - ubtue/ub_tools GitHub Wiki

Nur intern:

Allgemein

Über diese Oberfläche können verschiedene Harvesting-Verfahren getestet werden. Beim Testen in der Oberfläche findet keine Lieferung ans BSZ statt.

Inhalt Beschreibung
Zotero Translation Server Zeigt an, welcher Zotero Translation Server im Hintergrund verwendet wird (im Normalfall bei Tests "nu", Live "ub28"). Dieser ist nicht direkt über den Browser bedienbar, sondern nur indirekt über unsere Software.
Zeder Links zu den Zeder-Instanzen von IxTheo und KrimDok.
Help/Manual Link auf diese Wiki-Seite
Number of running processes Zeigt an, wieviele Prozesse im Hintergrund laufen. Ist diese Zahl > 0, so dauern Tests länger (da z.B. mehrere Personen gleichzeitig Testläufe durchführen).

Tab: List Journals

Zeigt eine Liste aller erfassten Zeitschriften an. Die Liste kann nur vom Team FID-Entwicklung bearbeitet werden und wird bei Bedarf halbautomatisch aus Zeder ausgelesen.

Auf diesem Tab ist "DataTables" im Einsatz (ähnlich wie bei Zeder). So werden die Treffer seitenweise angezeigt

  • unten = Auswahl der aktuellen Seite
  • links oben = Anzahl Elemente pro Seite
  • rechts oben = Volltextsuche über alle Felder
  • Außerdem kann nach Spalte sortiert werden. Mit Shift+Linksklick können mehrere Sortierungen miteinander kombiniert werden.
Feld Beschreibung
Group Gruppe, der die Zeitschrift angehört (z.B. IxTheo oder KrimDok, in Ausnahmefällen auch der Nachname der Person die uns den Test-Case mitgeteilt hat. Sinnvoll zur Sortierung, kann sich aber auch auf den Inhalt der produzierten Daten auswirken, z.B. URL die zum PPN-Lookup für Autoren verwendet wird. Was genau pro Gruppe konfiguriert ist, ist in der Konfigurationsdatei im Abschnitt GROUPS ersichtlich.
Title Titel der Zeitschrift, hinterlegt mit einem Hyperlink zur Einstiegs-URL (z.B. RSS-Feed).
ISSN (print) ISSN die verwendet wird, falls beim Harvesten keine ISSN gefunden wird.
ISSN (online) Ähnlich ISSN override (print). Hat Vorrang vor print falls vorhanden.
PPN (print) Wird aus Zeder übernommen.
PPN (online) Wird aus Zeder übernommen. Hat Vorrang vor print falls vorhanden.
Method RSS (RSS-Feed)CRAWL (Direkter Download (wenn Tiefe 0) oder Suche nach Unterseiten + ggf. mehrere Zotero-Downloads).
Delivery Mode NONE = kein nächtliches HarvestingTEST = nächtliches Harvesting + BSZ-Lieferung in die Test-DatenbankLIVE = nächtliches Harvesting + BSZ-Lieferung in die Live-Datenbank.
Action 1 Springe auf die Tabs (z.B. "Try RSS", "Try Crawling") und wähle die passende Zeitschrift aus. (Dort werden je nach Verfahren weitere Details angezeigt, anschließend kann der entsprechende Vorgang gestartet werden).
Action 2 Springe auf dden Tab "Try URL" und wähle die passende Zeitschrift aus. (Dort werden je nach Verfahren weitere Details angezeigt, anschließend kann der entsprechende Vorgang gestartet werden).
Zeder ID Zeder ID ("Z")
Status #f03c15 Es wurden bereits Datensätze für diese Zeitschrift geliefert, aber seit längerer Zeit gab es keine neuen Lieferungen mehr#FFFF00 Es gibt aktuelle Errors-Datensätze zu dieser Zeitschrift#009900 Es wurden Datensätze geliefert, sind keine Errors vorhanden und die letzte Lieferung liegt im Zeitrahmen #555555 Die Zeitschrift steht weder auf LIVE noch auf TEST, oder es wurden noch keine Datensätze geliefert bzw. gibt auch keine Errors.

Zur Synchronisierung der einzelnen Felder mit Zeder siehe auch: Zotero Harvester Zeder Interop

"Try"-Tabs (Allgemein)

Auf den "Try"-Tabs kann das jeweilige Verfahren zur ausgewählten Zeitschrift gestartet werden. Auf jedem Tab können nur die Zeitschriften ausgewählt werden, die fürs jeweilige Verfahren konfiguriert sind.

Beim Absenden des Formulars wird der Vorgang gestartet. Der Fortschritt lässt sich meist nicht im Voraus ermitteln (z.B. beim Crawling muss erst während dem Durchlauf ermittelt werden, wieviele Seiten noch erfasst werden müssen). Daher gibt es leider nur eine Anzeige der Dauer, wie lange der Vorgang bereits läuft.

WICHTIG: Der Vorgang kann je nach Verfahren und Anzahl der Unterseiten sehr lange dauern (durchaus 5-10 Minuten oder noch länger, insbesondere wenn mehrere Tests gleichzeitig laufen, siehe "Number of running processes"). Beim Schließen des Browsers bzw. Browser-Tabs läuft der Vorgang im Hintergrund dennoch weiter und kann nicht im Browser abgebrochen werden! Sollte der Server aufgrund vieler gleichzeitig laufender Prozesse nicht mehr reagieren, bitte telefonisch in der FID-Entwicklung bescheid geben.

Gefundene Fehler in generierten Daten sollten hier gesammelt werden: https://github.com/ubtue/DatenProbleme/issues (Für Zotero gibt es kein eigenes Label, bitte falls notwendig pro Zeitschrift ein eigenes Label anlegen).

Ergebnisfeld Beschreibung
Command Kommandozeilen-Aufruf
Runtime Laufzeit (zählt hoch sobald der Vorgang läuft)
Download result file Zieldatei herunterladen (erst wenn Vorgang erfolgreich abgeschlossen)
CLI output Kommandozeilen-Ausgabe
Server logs Log des Zotero Translation Server zum Debuggen von Translators. Siehe auch: https://github.com/ubtue/zotero-translation-server/wiki/Logging

Tab: Try RSS

Harvesting der Dokumente aus dem RSS-Feed

Tab: Try Crawling

Beim Crawling wird die Einstiegs-URL nach Hyperlinks durchsucht. Entspricht ein Hyperlink dem definierten Suchmuster, werden auch auf der verlinkten Seite nach weiteren Links und Zotero-Inhalten gesucht (bis maximal zur vorgegebenen Tiefe). Manche Anbieter sind diesem Verfahren gegenüber negativ eingestellt, da dies viel Web-Traffic auf Ihrer Webseite zur Folge hat. Außerdem sperren viele Anbieter die Web-Crawler über sog. robots.txt-Dateien aus. Zudem liefert das RSS-Verfahren meist bessere Ergebnisse. Da wir noch ganz am Anfang mit dem Harvesting-Verfahren stehen, ist Crawling momentan deaktiviert und wir fokussieren uns zunächst auf die anderen Verfahren.

Tab: Try URL

In diesem Tab kann eine einzelne URL mit den Einstellungen für eine Zeitschrift getestet werden, auch wenn die URL z.B. derzeit nicht mehr im RSS-Feed auftaucht.

Delivered records

Dieser View kann aufgerufen werden, indem man in der Zeitschriftenliste entweder auf die Spalte "Delivery Mode" oder "Status" klickt.

Folgende Zustände sind möglich:

  • #00ff00 Automatic: Der Datensatz wurde automatisch geliefert
  • #ff0000 Error: Es gab einen Fehler, der Datensatz wird beim nächsten Durchlauf erneut heruntergeladen
  • #00ffff Manual: Der Datensatz wurde manuell ans BSZ hochgeladen (z.B. per zotkat) und wird nicht mehr vom Harvester verarbeitet
  • #555555 Ignore: Der Datensatz ist irrelevant und kann übersprungen werden
  • #0000ff Reset: Der Datensatz war bereits in einem finalen Zustand (z.B. Automatic, Manual oder Ignore) und wurde zurückgesetzt => er wird jetzt erneut vom Harvester verarbeitet.

QA settings

Diese Ansicht kann geöffnet werden, indem man in der Ansicht "Delivered records" auf "Show QA settings" klickt. Genauere Informationen befinden sich auf der Seite Zotero-Harvester-Architecture.

Hinweise zu häufigen Fehlern

Datumsfehler

z.B.: TimeUtil::StringToStructTm: don't know how to convert "Sun, 24 Jun 2018 19:22:50 GMT" to a Date instance! Hier muss von einem Entwicklerteam das passende Date/Time-Format in unserer Konfiguration hinterlegt werden. Das Problem kommt daher, dass Zotero intern kein standardisiertes Datum/Uhrzeit Format hat, und jede Seite ihr eigenes Format liefern kann. Die Info wird nicht in Zeder gepflegt und muss von Hand in unserer Konfiguration nachgetragen werden (zotero_strptime_format). siehe auch: https://github.com/ubtue/ub_tools/blob/master/cpp/data/zts_harvester.conf

robots.txt

Erscheint eine Fehlermeldung mit Hinweis auf robots.txt, so bedeutet dies dass die Domain kein Crawling zulässt. In diesem Fall muss mit dem Verlag Kontakt aufgenommen werden. (Die Richtlinien in der robots.txt zu beachten ist zwar nicht verpflichtend, aber bei Nichtbefolgen besteht die Gefahr dass der Verlag unsere IP-Adresse sperrt). Siehe auch: https://wiki.selfhtml.org/wiki/Grundlagen/Robots.txt und https://github.com/ubtue/ub_tools/blob/master/cpp/data/zts_harvester.conf (user_agent)