Langzeitachivierung und Reproduzierbarkeit - Fuenfgeld/DMA2024TeamA GitHub Wiki

Die Langzeitarchivierung erfolgt über GitHub Repository.

Wie in den Regeln zur guten wissenschaftlichen Praxis der deutschen Forschungsgesellschaft vorgesehen, werden die Forschungsdaten und der Code für deren Auswertung mindestens 10 Jahre archiviert.

Zusätzlich werden die Projektergebnisse und alle relevanten Forschungsdaten für 10 Jahre verschlüsselt auf einer externen Festplatte abgelegt Die zu erwartende Gesamtgröße beträgt maximal 20 GB. Zusätzlich werden alle Daten intern in einem shared Space mit Identitätskontrolle abgelegt.

Auflistung aller relevanten Methoden und Programme

Google ColabBook

Python mit seinen Erweiterungsmodulen (inkl. verwendeten Versionen)

Python 3.10.12

Pandas: 1.5.3

Numpy: 1.25.2

sqlite3: 2.6.0

seaborn: 0.13.1

matplotlib: 3.7.1

Folium: 0.14.0

SQL als Anfragesprache

Auflistung der Ergebnisdateien welche aufbewahrt werden sollen:

SQL Datenbank

Rohdaten (Zugriffssicherheit beachten)

Skripte

Ergebnisse der Analysen

Auflistung der Rohdaten welche aufbewahrt werden sollen:

Für die Forschungsfrage relevante csv Dateien (Synthea, um die Skripte ausführen zu können).

Reproduzierbarkeit der Daten

Die Reproduktion der Ergebnisse ist über die Verwendung der folgenden Pakete nachvollziehbar.

Versionen der Packages:

!python --version

 print ('Pandas: ', pd.__version__,'\n',
        'Numpy: ', np.__version__,'\n',
        'sqlite3: ', sqlite3.version,'\n',
        'seaborn: ', sns.__version__,'\n',
        'matplotlib: ', matplotlib.__version__,'\n',
        'Folium: ', folium.__version__)

Hashwert des factsheets

from pandas.util > import hash_pandas_object

df_fs_hashes = hash_pandas_object(df_fs)

df_fs_hashes

Summe sollte lauten: 8585206434043835687

df_fs_hashes.sum()