Datenmanagementplan - Fuenfgeld/DMA2024TeamB GitHub Wiki
Administrative Daten
Übersicht | |
---|---|
Projektname | DMA2024TeamB |
Projekttitel | PRECISE-BC: Probing Quality of Life Changes in Breast Cancer Patients with and without Comorbidities |
Projektbeschreibung | Retrospektive Studie, die sich der umfassenden Analyse der Auswirkungen von Brustkrebs auf die Lebensqualität (QoL) widmet, unter Nutzung eines synthetisch hergestellten Datensatz. -> Projektoutline und Studienziele |
Projektlaufzeit | 15.01.2024 / 22.02.2024 |
Projektrahmen | Projektarbeit im Modul Datenmanagement und Archivierung im Umfeld der Forschung (BIDS-Masterstudiengang, Hochschule Mannheim) |
Finanzierung | Eigenfinanzierung |
Zuständige Ethikkommission | N/A |
Verantwortlichkeit
Rolle | Name |
---|---|
Projektleiter | Maximilian Fünfgeld |
Forscherin, Datenmanagerin | Martina Haberecker |
Forscherin, Datenmanagerin | Hanna Hübner |
Forscherin, Datenmanagerin | Dorothea Lange |
Forscher, Datenmanager | Moritz Milewski |
Datenmanagement
1. Datenerhebung
A. Beschreibung der Forschungsdaten
Die Datengrundlage des Projekts ist einer von Synthea generierter Datensatz aus synthetischen Patientendaten. Synthea ist eine Open-Source-Softwareplattform, die für die Generierung von synthetischen Patientendaten verwendet wird, um für Gesundheitsinformatik-Projekte innerhalb der Datenschutzbestimmungen realistische Szenarien zu simulieren. Der Datensatz "Breast Cancer" wurde ausgewertet. Eine ausführliche Beschreibung des Datensatzes: Quelldaten
Übersicht der Datenformate:
Datenart | Details | Format(e) |
---|---|---|
Quelldaten | von Synthea bereitgestellte Tabellen mit Rohdaten | .csv |
Primärdaten, Sekundärdaten | SQLite Datenbank, extrahierte Analysetabellen | .db, .csv |
Code | Colab Notebooks, SQL Statements | .ipynb, .sql |
Dokumentation | Metadaten, Diagramme | .md, .png |
Ergebnisse | Tabellen, Abbildungen | .csv, .png |
B. Datenverarbeitung und Analyse
Die Datenverarbeitung innerhalb des Projekts umfasst die folgenden Schritte:
- Erstellung Quelldatenbank:
- Import der Quelldaten im csv-Format in eine SQLite-Datenbank
- Strukturiertes festlegen des ETL Prozess:
- Das Data Warehouse wurde mittels SQL Commands erstellt und in ein Pyton-skript eingearbeitet.
- Verschiedene Schritte der Pseudonymisierung (Kapitel DSFA) und Anonymierung
Analyse der Daten:
- Explorative Datenanalyse (EDA) zur Analyse der Datenqualität
- Statistischer Analyse Plan
- Beantwortung der Forschungsfrage -> Datenanalyse und Resultate
C. Massnahmen zur Qualitätssicherung
Das Data Warehaouse in diesem Projekt wurde mittles SQL-Commands erstellt, und anschliessend in ein Pyton Skript eingearbeitet. Im Rahme der Erstellung des Data Warehouse mittles SQL wurden folgende mögliche Qualitätsmengel behoben:
- Duplikate (mehrfach vorliegende Datensätze)
- Vollständigkeit der Daten (leere Datensätze, fehlende Werte)
Im Anschluss wurde der Datensatz mittles explorativer Datenanalyse (EDA) auf Plausibilität überprüft.
2. Datenspeicherung und Datenzugriff
A. Dateiorganisation
Die Organisation der Dateien innerhalb des öffentlichen GitHub Repository:
- Code für die generierten und verwendeten Skripte
- Daten für die bereitgestellten und erzeugten Datensätze
- Dokumentation für die projektbezogene Dokumentation der Daten und Datenverarbeitung
B. Datenzugriff:
Öffentliches GitHub Repository
- Leserechte: Öffentlichkeit
- Schreibrechte: alle Projektbeteiligte
- Adminrechte: Projektleitung
3. Datendokumentation und Metadaten erstellen
Die Dokumentation der Daten und Datenverarbeitung erfolgt im öffentlichen Wiki des GitHub Repositories. Angaben zur Systemumgebung sind im Wiki hinterlegt.
4. Data Sharing
A. Erfüllung der FAIR-Prinzipien
Findable (Auffindbarkeit): Es erfolgt eine umfangreiche Dokumentation der im Projekt verarbeiteten Daten (Daten, Code, Ergebnisse) im GitHub Wiki mit direkten Links zu den entsprechenden Codes oder Daten.
Accessible (Zugänglichkeit): Über das GitHub Repository besteht ein öffentlicher Zugriff auf die im Projekt verarbeiteten Daten (Daten, Code, Ergebnisse) sowie die im GitHub Wiki verfügbare Dokumentation und Metadaten. Für den Zugriff auf die öffentlich bereitgestellten Daten ist keine weitere Authentifizierung oder Autorisierung notwendig.
Interoperable (Interoperabilität): Im Projekt werden plattformunabhängige Standard-Dateiformate verwendet (vgl. Beschreibung der Forschungsdaten).
Reusable (Wiederverwendbarkeit): Es erfolgt eine umfangreiche Dokumentation der im Projekt verarbeiteten Daten (Daten, Code, Ergebnisse) im GitHub Wiki mit direkten Links auf den entsprechenden Code oder die Daten.
B. Archivierung
Die Archivierung der in diesem Projekt verarbeiteten und erstellten Daten, Codes, Skripte und Ergebnisse erfolgt über das bereitgestellte GitHub Repository Fuenfgeld/DMA2024TeamB. Vgl. -> Archivierungskonzept