Datenmanagementplan - Fuenfgeld/DMA2024TeamB GitHub Wiki

Administrative Daten

	Übersicht
Projektname	DMA2024TeamB
Projekttitel	PRECISE-BC: Probing Quality of Life Changes in Breast Cancer Patients with and without Comorbidities
Projektbeschreibung	Retrospektive Studie, die sich der umfassenden Analyse der Auswirkungen von Brustkrebs auf die Lebensqualität (QoL) widmet, unter Nutzung eines synthetisch hergestellten Datensatz. -> Projektoutline und Studienziele
Projektlaufzeit	15.01.2024 / 22.02.2024
Projektrahmen	Projektarbeit im Modul Datenmanagement und Archivierung im Umfeld der Forschung (BIDS-Masterstudiengang, Hochschule Mannheim)
Finanzierung	Eigenfinanzierung
Zuständige Ethikkommission	N/A

Verantwortlichkeit

Rolle	Name
Projektleiter	Maximilian Fünfgeld
Forscherin, Datenmanagerin	Martina Haberecker
Forscherin, Datenmanagerin	Hanna Hübner
Forscherin, Datenmanagerin	Dorothea Lange
Forscher, Datenmanager	Moritz Milewski

Datenmanagement

1. Datenerhebung

A. Beschreibung der Forschungsdaten

Die Datengrundlage des Projekts ist einer von Synthea generierter Datensatz aus synthetischen Patientendaten. Synthea ist eine Open-Source-Softwareplattform, die für die Generierung von synthetischen Patientendaten verwendet wird, um für Gesundheitsinformatik-Projekte innerhalb der Datenschutzbestimmungen realistische Szenarien zu simulieren. Der Datensatz "Breast Cancer" wurde ausgewertet. Eine ausführliche Beschreibung des Datensatzes: Quelldaten

Übersicht der Datenformate:

Datenart	Details	Format(e)
Quelldaten	von Synthea bereitgestellte Tabellen mit Rohdaten	.csv
Primärdaten, Sekundärdaten	SQLite Datenbank, extrahierte Analysetabellen	.db, .csv
Code	Colab Notebooks, SQL Statements	.ipynb, .sql
Dokumentation	Metadaten, Diagramme	.md, .png
Ergebnisse	Tabellen, Abbildungen	.csv, .png

B. Datenverarbeitung und Analyse

Die Datenverarbeitung innerhalb des Projekts umfasst die folgenden Schritte:

Erstellung Quelldatenbank:
- Import der Quelldaten im csv-Format in eine SQLite-Datenbank
Strukturiertes festlegen des ETL Prozess:
- Das Data Warehouse wurde mittels SQL Commands erstellt und in ein Pyton-skript eingearbeitet.
- Verschiedene Schritte der Pseudonymisierung (Kapitel DSFA) und Anonymierung

Analyse der Daten:

Explorative Datenanalyse (EDA) zur Analyse der Datenqualität
Statistischer Analyse Plan
Beantwortung der Forschungsfrage -> Datenanalyse und Resultate

C. Massnahmen zur Qualitätssicherung

Das Data Warehaouse in diesem Projekt wurde mittles SQL-Commands erstellt, und anschliessend in ein Pyton Skript eingearbeitet. Im Rahme der Erstellung des Data Warehouse mittles SQL wurden folgende mögliche Qualitätsmengel behoben:

Duplikate (mehrfach vorliegende Datensätze)
Vollständigkeit der Daten (leere Datensätze, fehlende Werte)

Im Anschluss wurde der Datensatz mittles explorativer Datenanalyse (EDA) auf Plausibilität überprüft.

2. Datenspeicherung und Datenzugriff

A. Dateiorganisation

Die Organisation der Dateien innerhalb des öffentlichen GitHub Repository:

Code für die generierten und verwendeten Skripte
Daten für die bereitgestellten und erzeugten Datensätze
Dokumentation für die projektbezogene Dokumentation der Daten und Datenverarbeitung

B. Datenzugriff:

Öffentliches GitHub Repository

Leserechte: Öffentlichkeit
Schreibrechte: alle Projektbeteiligte
Adminrechte: Projektleitung

3. Datendokumentation und Metadaten erstellen

Die Dokumentation der Daten und Datenverarbeitung erfolgt im öffentlichen Wiki des GitHub Repositories. Angaben zur Systemumgebung sind im Wiki hinterlegt.

4. Data Sharing

A. Erfüllung der FAIR-Prinzipien

Findable (Auffindbarkeit): Es erfolgt eine umfangreiche Dokumentation der im Projekt verarbeiteten Daten (Daten, Code, Ergebnisse) im GitHub Wiki mit direkten Links zu den entsprechenden Codes oder Daten.

Accessible (Zugänglichkeit): Über das GitHub Repository besteht ein öffentlicher Zugriff auf die im Projekt verarbeiteten Daten (Daten, Code, Ergebnisse) sowie die im GitHub Wiki verfügbare Dokumentation und Metadaten. Für den Zugriff auf die öffentlich bereitgestellten Daten ist keine weitere Authentifizierung oder Autorisierung notwendig.

Interoperable (Interoperabilität): Im Projekt werden plattformunabhängige Standard-Dateiformate verwendet (vgl. Beschreibung der Forschungsdaten).

Reusable (Wiederverwendbarkeit): Es erfolgt eine umfangreiche Dokumentation der im Projekt verarbeiteten Daten (Daten, Code, Ergebnisse) im GitHub Wiki mit direkten Links auf den entsprechenden Code oder die Daten.

B. Archivierung

Die Archivierung der in diesem Projekt verarbeiteten und erstellten Daten, Codes, Skripte und Ergebnisse erfolgt über das bereitgestellte GitHub Repository Fuenfgeld/DMA2024TeamB. Vgl. -> Archivierungskonzept