Handreichung Dateneingabe - OpenAPC/openapc-de GitHub Wiki

Einleitung

OpenAPC ist ein Open-Data-Projekt zu Open-Access-Publikationsgebühren, bei dem sämtliche Daten von akademischen Einrichtungen oder Förderern auf freiwilliger Basis zur Verfügung gestellt werden. Wenn Sie diese Handreichung lesen, weil Sie in Erwägung ziehen, zum ersten Mal Daten im Namen Ihrer Institution beizusteuern, möchten wir Ihnen bereits im Voraus danken - ohne dieses Engagement könnte unser Projekt nicht bestehen! Bitte nehmen Sie sich etwas Zeit, um sich mit den folgenden Hinweisen vertraut zu machen. Wenn etwas unklar ist, zögern Sie nicht, nachzufragen (entweder über den Issue Tracker oder per Mail). Und das Wichtigste: Ihr Beitrag muss nicht perfekt sein - wir haben langjährige Erfahrung und die technischen Mittel, um viele Probleme auf unserer Seite zu beheben.

Mindestanforderung

  • Die Daten beinhalten die Ausgaben je Open-Access-Publikation einer akademischen Einrichtung.
  • Die Daten sollen mittels csv in einem maschinenlesbaren, plattformübergreifenden Format zur Verfügung gestellt werden.
  • Durch Ihre Datenmeldung erklären Sie sich damit einverstanden, dass die Daten unter einer Open-Data-Commons-Lizenz öffentlich verfügbar gemacht werden und nachnutzbar sind.
  • Eine Ansprechpartnerin oder ein Ansprechpartner an der beisteuernden Einrichtung ist benannt.

Arten von Publikationstypen und Kostendaten

OpenAPC erhebt Kostendaten zu OA-Veröffentlichungen für die folgenden Publikationstypen:

  1. Zeitschriftenartikel (Article Processing Charges, APCs)
  2. Monographien (Gesamtbücher) (Book Processing Charges, BPCs)

OA-Gebühren für andere Publikationstypen (z. B. einzelne Buchkapitel oder Konferenzberichte) werden derzeit nicht erhoben.

Für Zeitschriftenartikel können neben APCs auch Zusatzkosten, z.B. für Farbabbildungen (colour charges), Einreichungen (submission charges) oder Überlänge (page charges), gemeldet werden, die im Rahmen von Open-Access-Publikationen anfallen können.

Datensätze in OpenAPC

Die Kostendaten zu Monographien (BPCs) und Zeitschriftenartikeln (APCs) werden in zwei separaten Datensätzen aggregiert. In der Anfangsphase der Initiative lag der Fokus auf Verzeichnung von Kostendaten aus Publikationsfonds, deren Einrichtung durch das mittlerweile eingestellte Programm „Open Access Publizieren“ bis 2020 durch die DFG unterstützt wurde. So bauen die Datensätze auf bereits etablierte Melderoutinen an den einzelnen Einrichtungen im Rahmen der Publikationsfonds auf.

Die Datensätze werden aus den verteilten Tabellen der beitragenden Einrichtungen zusammengestellt. Um die Ausgaben vergleichbar zu machen, werden die Buch- und Zeitschriftentitelansetzungen mittels automatischer Anreicherungsverfahren durchgeführt (CrossRef). Durch weitere Anreicherung der Nachweise mit Informationen z.B. aus dem disziplinären Repository Europe PubMed Central, dem DOAJ oder dem DOAB werden weitere Felder automatisch ausgefüllt.

Im Sinne der Sichtbarkeit und Nachnutzung werden die Datensätze über GitHub verfügbar gemacht.

Datenschema

Ihre übermittelte CSV-Datei sollte einem bestimmten Datenschema entsprechen, um sicherzustellen, dass sie alle von uns benötigten Informationen enthält. Jede Variable (Pflichtfelder und optionale Felder) des Schemas bildet eine Tabellenspalte und pro Artikel/Monographie wird eine Zeile verwendet. Welches Schema zu verwenden ist, hängt von der Art der Kostendaten ab, die Sie einreichen möchten:

Wenn Sie Kostendaten für beide Publikationsarten bereitstellen möchten, empfehlen wir, zwei verschiedene Tabellen einzureichen.

Dieser Beitrag der Universität Leipzig ist ein gutes Beispiel für eine Schema-konforme Einreichung.

Zusammensetzung der gemeldeten Kosten

Open-Access-Publikationsgebühren

Um Vergleichbarkeit zu gewährleisten, wird im Datenfeld euro die Open-Access-Gebühr (APC bzw. BPC) verzeichnet. Der gemeldete Betrag sollte sich dabei gemäß folgender Regeln zusammensetzen:

  • Alle gemeldeten Kosten sind grundsätzlich als Bruttowerte aufzufassen, modifizierende Faktoren wie Steuern oder Rabatte sollten in den Betrag inkludiert sein (Oder anders ausgedrückt: Es ist der APC-/BPC-Betrag maßgeblich, der letztlich den Haushalt einer Institution belastet hat). Mit Ausnahme des obligatorischen Feldes backlist_oa im BPC-Datensatz werden diese Einflüsse im Datensatz nicht gesondert erfasst , können aber in der Selbstdarstellung der Institution in Form einer README als Teil der Datenbereitstellung näher erläutert werden (Beispiel).
  • Falls die Kosten für eine OA-Publikation zwischen mehreren Institutionen aufgeteilt wurden (Splitting), sollte lediglich eine der Einrichtungen den vollen Betrag an OpenAPC melden. Dies betrifft insbesondere OA-Monographien, wo eine anteilige Finanzierung von BPCs häufiger vorkommt: Hier sollen immer die Gesamtkosten an OpenAPC gemeldet werden, auch wenn Ihre Einrichtung nur einen Teil davon getragen hat. Falls der Gesamtbetrag nicht bekannt ist, sollte auf eine Meldung verzichtet werden.
  • Einige Zeitschriften erheben zusätzliche Gebühren, wenn nachträglich Korrekturen (Corrigenda) für publizierte Artikel veröffentlicht werden. Auch solche Beträge sind nicht Bestandteil einer APC im eigentlichen Sinne und sollten daher weder auf die APC-Kosten aufgeschlagen noch als eigenständige Einheit (falls eine separate DOI vergeben wurde) an OpenAPC gemeldet werden.
  • Es werden nur solche Publikationen aufgenommen, die dem "klassischen" APC-/BPC-Modell entsprechen, d.h. OA-Publikation gegen direkte Zahlung eines Geldbetrags. Für Publikationen, die unter Transformationsverträgen veröffentlicht wurden, gelten Sonderregeln (siehe „Daten aus Transformationsverträgen“).
  • Es sollten nur Artikel mit einem positiven APC-Betrag gemeldet werden, also keine "Freiartikel" mit einem Betrag von 0€, die beispielsweise im Rahmen von Rabatten, für Reviewtätigkeiten oder als Kompensation gewährt werden.

Wie der Name des Feldes bereits ausdrückt, sollte die Währung des gemeldeten Betrags Euro (€) sein. Wenn die Buchhaltung Ihrer Einrichtung auf einer anderen Währung basiert, können Sie die Werte entweder selbst umrechnen (was wir empfehlen) oder die Währungskennung hinzufügen und uns den Vorgang überlassen. In diesem Fall könnten die Ergebnisse jedoch etwas ungenau sein, da wir mit durchschnittlichen Wechselkursen für den Berichtszeitraum arbeiten müssen. Wenn Sie Informationen über das genaue Zahlungsdatum für jeden Artikel haben, empfiehlt es sich, diese Informationen in die Spalte für den Zeitraum einzutragen (JJJJ-MM-TT) anstatt nur das Jahr, damit wir tagesaktuelle Wechselkurse zur Umrechnung verwenden können.

Zusatzkosten

Im Jahr 2024 hat OpenAPC damit begonnen, zusätzliche Kosten für Zeitschriftenartikel zu erfassen, die neben APCs anfallen können. Für die Meldung dieser Kosten ist Folgendes zu beachten:

  • Zusätzliche Kostenpunkte sollten nicht im Datenfeld euro enthalten sein, sondern in separaten Datenfeldern gemeldet werden.
  • Die möglichen Kostentypen, die gemeldet werden können, basieren auf den Definitionen des entwickelten OpenCost-Metadatenformats: colour charge, cover charge, page charge, permission, reprint, submission fee, payment fee, other. Weiterführende Informationen und Details zum openCost-Schema unter: https://github.com/opencost-de/opencost/tree/main/doc
  • Wie für APCs, greift auch bei den Zusatzkosten das Bruttoprinzip, d.h. die Beträge sollten Faktoren wie Steuern enthalten.
  • Diese Kostenarten sind als fakultativ zu betrachten und werden daher in einem separaten Datensatz erfasst, die mit dem Haupteintrag der Publikation im APC-Datensatz verknüpft ist und dabei die DOI als Primärschlüssel verwendet.

Daten aus Transformationsverträgen

Artikel aus Transformationsvereinbarungen werden in dem Datensatz Transformative Agreements (TA) aggregiert. Hierfür gilt es einige Besonderheiten zu beachten:

  • Die Konditionen und Berechnungsweisen der Kosten sind sehr unterschiedlich, daher enthalten die meisten Einträge im Datensatz keine Kosteninformationen und das Euro-Feld ist nicht obligatorisch für das TA-Schema.
  • Wir verwenden für den TA-Datensatz nur größere Datenlieferungen, die uns direkt von Förderern oder Konsortien zur Verfügung gestellt werden. Einzelne Einrichtungen sollten keine Publikationen aus Transformationsverträgen an OpenAPC melden.
  • Eine wichtige Ausnahme bilden Daten aus den DEAL-Verträgen mit Wiley und Springer Nature, die von den einzelnen Einrichtungen bereitgestellt werden und für die Kostendaten für hybride Artikel kalkulatorisch ermittelt werden.

Einreichung

Ihre CSV-Dateien können sie dem OpenAPC-Projekt auf 2 Arten zur Verfügung stellen:

  1. Per Mail an openapc at uni-bielefeld.de
  2. Per Pull Request direkt auf GitHub. Dieser Vorgang wird im Folgenden genauer erläutert.

WICHTIGER HINWEIS: Wir bitten Sie, uns die Daten bei einer Ersteinreichnung nur per Mail zu schicken (Einreichungsweg 1), damit wir direkt eine offizielle Email-Adresse sowie eine Kontaktperson einpflegen können. Der Einreichungsweg „Pull Request“ kann ab der zweiten Einreichung genutzt werden und ist völlig optional: Sie können uns ihre Daten auch weiterhin jederzeit per E-Mail zukommen lassen.

GitHub-Workflow: Einreichung neuer Daten

Um neue Daten eigenständig auf GitHub hinzuzufügen, sind die folgenden Schritte nötig. Die Anweisungen setzen die Verwendung einer Shell (Kommandozeile) voraus, unter Windows empfiehlt sich die Verwendung von Git for Windows, das mit Git BASH eine entsprechende Umgebung mit vorinstalliertem git bereitstellt.

  1. Legen Sie einen Account auf GitHub an (kostenfrei), sofern noch nicht vorhanden. Der Nutzername sei im Folgenden als YOURUsername bezeichnet. Für die nachfolgenden Schritte ist es außerdem nötig, einen SSH-Schlüssel zu erzeugen und in ihren GitHub-Account einzutragen, was hier erläutert wird.
  2. Erzeugen sie einen Fork des OpenAPC-Repositorys in ihrem Benutzerkonto.
  3. Erstellen Sie eine lokalen Kopie (clone) des Forks auf ihrem Rechner:
$ git clone https://github.com/YOURUsername/openapc-de.git
  1. Suchen sie im Unterverzeichnis data nach dem Ordner ihrer Einrichtung (Im Folgenden YOURFolder).
  2. Kopieren Sie die Dateien, die Sie neu hinzufügen wollen, in den Ordner.
  3. Fügen Sie die neuen Daten zu git hinzu und veröffentlichen Sie sie anschließend in ihrem Fork auf GitHub:
$ git add openapc-de/data/YOURFolder/
$ git commit -m "APC fees paid in 2022" (oder eine ähnliche Beschreibung)
$ git push origin master
  1. Stellen Sie einen Pull Request, um die Daten dem ursprünglichen OpenAPC-Repository hinzuzufügen. Ein:e Mitarbeiterin:in von OpenAPC wird den Pull Request bei nächster Gelegenheit integrieren, sobald die Daten verarbeitet sind, werden sie regulär per E-Mail benachrichtigt.

Anreicherung

Nach dem Pull Request (bzw. der Einreichung per Mail) werden die Daten vom OpenAPC-Projekt zunächst normalisiert und angereichert. Üblicherweise wird dazu zu jeder hochgeladenen CSV-Datei eine angereicherte Variante in ihrem Verzeichnis abgelegt, gekennzeichnet durch das Suffix _enriched im Dateinamen. Nach der Anreicherung werden die Daten in den OpenAPC-Datensatz aufgenommen, der anschließend eine neue Versionsnummer erhält.

Die Anreicherungsschritte umfassen:

  • Verlags- und Zeitschriftentitelansetzung, Hinzufügen von ISSN- und Lizenzinformationen (CrossRef)
  • Bestimmung von PMID und PMCID (Europe PubMed Central)
  • Abgleich mit dem Web of Science und Speicherung der Datenbankidentnummer ut
  • Abfrage, ob die Zeitschrift im DOAJ verzeichnet ist
  • Hinzufügen einer möglichen Linking-ISSN

Lizenz

Derzeit findet folgende Lizenz Anwendung:

Datasets are made available under the Open Database License: http://opendatacommons.org/licenses/odbl/1.0/. Any rights in individual contents of the database are licensed under the Database Contents License: http://opendatacommons.org/licenses/dbcl/1.0/

Contributor

Alle Beiträgerinnen und Beiträger werden namentlich genannt.

Nachnutzung

Neben der dynamisch aktualisierten Startseite des GitHub-Repositorys (basierend auf R Markdown) betreibt OpenAPC außerdem einen OLAP-Server zur zielgerichteten Datenabfrage sowie darauf aufbauend eine Website mit Treemap-Visualisierungen der gesammelten APC-Daten.