Langzeitachivierung und Reproduzierbarkeit - Fuenfgeld/DMA2024TeamA GitHub Wiki
Die Langzeitarchivierung erfolgt über GitHub Repository.
Wie in den Regeln zur guten wissenschaftlichen Praxis der deutschen Forschungsgesellschaft vorgesehen, werden die Forschungsdaten und der Code für deren Auswertung mindestens 10 Jahre archiviert.
Zusätzlich werden die Projektergebnisse und alle relevanten Forschungsdaten für 10 Jahre verschlüsselt auf einer externen Festplatte abgelegt Die zu erwartende Gesamtgröße beträgt maximal 20 GB. Zusätzlich werden alle Daten intern in einem shared Space mit Identitätskontrolle abgelegt.
Auflistung aller relevanten Methoden und Programme
Google ColabBook
Python mit seinen Erweiterungsmodulen (inkl. verwendeten Versionen)
Python 3.10.12
Pandas: 1.5.3
Numpy: 1.25.2
sqlite3: 2.6.0
seaborn: 0.13.1
matplotlib: 3.7.1
Folium: 0.14.0
SQL als Anfragesprache
Auflistung der Ergebnisdateien welche aufbewahrt werden sollen:
SQL Datenbank
Rohdaten (Zugriffssicherheit beachten)
Auflistung der Rohdaten welche aufbewahrt werden sollen:
Für die Forschungsfrage relevante csv Dateien (Synthea, um die Skripte ausführen zu können).
Reproduzierbarkeit der Daten
Die Reproduktion der Ergebnisse ist über die Verwendung der folgenden Pakete nachvollziehbar.
Versionen der Packages:
!python --version
print ('Pandas: ', pd.__version__,'\n',
'Numpy: ', np.__version__,'\n',
'sqlite3: ', sqlite3.version,'\n',
'seaborn: ', sns.__version__,'\n',
'matplotlib: ', matplotlib.__version__,'\n',
'Folium: ', folium.__version__)
Hashwert des factsheets
from pandas.util > import hash_pandas_object
df_fs_hashes = hash_pandas_object(df_fs)
df_fs_hashes
Summe sollte lauten: 8585206434043835687
df_fs_hashes.sum()