Datenmanagementplan - Fuenfgeld/DMA2024TeamB GitHub Wiki

Administrative Daten

Übersicht
Projektname DMA2024TeamB
Projekttitel PRECISE-BC: Probing Quality of Life Changes in Breast Cancer Patients with and without Comorbidities
Projektbeschreibung Retrospektive Studie, die sich der umfassenden Analyse der Auswirkungen von Brustkrebs auf die Lebensqualität (QoL) widmet, unter Nutzung eines synthetisch hergestellten Datensatz. -> Projektoutline und Studienziele
Projektlaufzeit 15.01.2024 / 22.02.2024
Projektrahmen Projektarbeit im Modul Datenmanagement und Archivierung im Umfeld der Forschung (BIDS-Masterstudiengang, Hochschule Mannheim)
Finanzierung Eigenfinanzierung
Zuständige Ethikkommission N/A

Verantwortlichkeit

Rolle Name
Projektleiter Maximilian Fünfgeld
Forscherin, Datenmanagerin Martina Haberecker
Forscherin, Datenmanagerin Hanna Hübner
Forscherin, Datenmanagerin Dorothea Lange
Forscher, Datenmanager Moritz Milewski

Datenmanagement

1. Datenerhebung

A. Beschreibung der Forschungsdaten

Die Datengrundlage des Projekts ist einer von Synthea generierter Datensatz aus synthetischen Patientendaten. Synthea ist eine Open-Source-Softwareplattform, die für die Generierung von synthetischen Patientendaten verwendet wird, um für Gesundheitsinformatik-Projekte innerhalb der Datenschutzbestimmungen realistische Szenarien zu simulieren. Der Datensatz "Breast Cancer" wurde ausgewertet. Eine ausführliche Beschreibung des Datensatzes: Quelldaten

Übersicht der Datenformate:

Datenart Details Format(e)
Quelldaten von Synthea bereitgestellte Tabellen mit Rohdaten .csv
Primärdaten, Sekundärdaten SQLite Datenbank, extrahierte Analysetabellen .db, .csv
Code Colab Notebooks, SQL Statements .ipynb, .sql
Dokumentation Metadaten, Diagramme .md, .png
Ergebnisse Tabellen, Abbildungen .csv, .png

B. Datenverarbeitung und Analyse

Die Datenverarbeitung innerhalb des Projekts umfasst die folgenden Schritte:

Analyse der Daten:

C. Massnahmen zur Qualitätssicherung

Das Data Warehaouse in diesem Projekt wurde mittles SQL-Commands erstellt, und anschliessend in ein Pyton Skript eingearbeitet. Im Rahme der Erstellung des Data Warehouse mittles SQL wurden folgende mögliche Qualitätsmengel behoben:

  • Duplikate (mehrfach vorliegende Datensätze)
  • Vollständigkeit der Daten (leere Datensätze, fehlende Werte)

Im Anschluss wurde der Datensatz mittles explorativer Datenanalyse (EDA) auf Plausibilität überprüft.

2. Datenspeicherung und Datenzugriff

A. Dateiorganisation

Die Organisation der Dateien innerhalb des öffentlichen GitHub Repository:

  • Code für die generierten und verwendeten Skripte
  • Daten für die bereitgestellten und erzeugten Datensätze
  • Dokumentation für die projektbezogene Dokumentation der Daten und Datenverarbeitung

B. Datenzugriff:

Öffentliches GitHub Repository

  • Leserechte: Öffentlichkeit
  • Schreibrechte: alle Projektbeteiligte
  • Adminrechte: Projektleitung

3. Datendokumentation und Metadaten erstellen

Die Dokumentation der Daten und Datenverarbeitung erfolgt im öffentlichen Wiki des GitHub Repositories. Angaben zur Systemumgebung sind im Wiki hinterlegt.

4. Data Sharing

A. Erfüllung der FAIR-Prinzipien

Findable (Auffindbarkeit): Es erfolgt eine umfangreiche Dokumentation der im Projekt verarbeiteten Daten (Daten, Code, Ergebnisse) im GitHub Wiki mit direkten Links zu den entsprechenden Codes oder Daten.

Accessible (Zugänglichkeit): Über das GitHub Repository besteht ein öffentlicher Zugriff auf die im Projekt verarbeiteten Daten (Daten, Code, Ergebnisse) sowie die im GitHub Wiki verfügbare Dokumentation und Metadaten. Für den Zugriff auf die öffentlich bereitgestellten Daten ist keine weitere Authentifizierung oder Autorisierung notwendig.

Interoperable (Interoperabilität): Im Projekt werden plattformunabhängige Standard-Dateiformate verwendet (vgl. Beschreibung der Forschungsdaten).

Reusable (Wiederverwendbarkeit): Es erfolgt eine umfangreiche Dokumentation der im Projekt verarbeiteten Daten (Daten, Code, Ergebnisse) im GitHub Wiki mit direkten Links auf den entsprechenden Code oder die Daten.

B. Archivierung

Die Archivierung der in diesem Projekt verarbeiteten und erstellten Daten, Codes, Skripte und Ergebnisse erfolgt über das bereitgestellte GitHub Repository Fuenfgeld/DMA2024TeamB. Vgl. -> Archivierungskonzept