Datenmanagementplan - Fuenfgeld/DMA2022DataProjectB GitHub Wiki

Inhaltsverzeichnis

1. Administrative Daten

Projekt Beschreibung

Projektname DMA2022DataProjectB

Projekttitel Analyse von Brustkrebsdaten

Projektbeschreibung mit Datensatzbeschreibung Studie über Patienten, die an Brustkrebs erkrankt sind und vergleichbare Krankheitszustände vorweisen, mit der Forschungsfrage, ob diese auch die gleiche Behandlung bzw. Medikation erhalten

Projektlaufzeit von 02.06.2022 bis 21.07.2022

Datum der Erstellung/Änderung DMP 19.07.2022

Version 3.0

Projekt	Beschreibung
Projektname	DMA2022DataProjectB
Projekttitel	Analyse von Brustkrebsdaten
Projektbeschreibung mit Datensatzbeschreibung	Studie über Patienten, die an Brustkrebs erkrankt sind und vergleichbare Krankheitszustände vorweisen, mit der Forschungsfrage, ob diese auch die gleiche Behandlung bzw. Medikation erhalten
Projektlaufzeit	von 02.06.2022 bis 21.07.2022
Datum der Erstellung/Änderung DMP	19.07.2022
Version	3.0

2. Verantwortlichkeiten (Kontaktdaten)

Rolle Name Kommentar Kontaktdaten

Forscher, Datenmanager Shayan Mohajerani Datenmanagementorganisation, Datenspeicherung und Langzeitarchivierung, Datenanalyse [email protected]

Forscher, Datenmanager Christian Singer Datenmanagementorganisation, Datenspeicherung und Langzeitarchivierung, Datenanalyse [email protected]

Forscher, Datenmanager Mariia Robota Datenmanagementorganisation, Datenspeicherung und Langzeitarchivierung, Datenanalyse [email protected]

Forscher, Datenmanager Ahmad Al-Taie Datenmanagementorganisation, Datenspeicherung und Langzeitarchivierung, Datenanalyse [email protected]

Rolle	Name	Kommentar	Kontaktdaten
Forscher, Datenmanager	Shayan Mohajerani	Datenmanagementorganisation, Datenspeicherung und Langzeitarchivierung, Datenanalyse	[email protected]
Forscher, Datenmanager	Christian Singer	Datenmanagementorganisation, Datenspeicherung und Langzeitarchivierung, Datenanalyse	[email protected]
Forscher, Datenmanager	Mariia Robota	Datenmanagementorganisation, Datenspeicherung und Langzeitarchivierung, Datenanalyse	[email protected]
Forscher, Datenmanager	Ahmad Al-Taie	Datenmanagementorganisation, Datenspeicherung und Langzeitarchivierung, Datenanalyse	[email protected]

3. Datenmanagement

3.1. Datenerhebung

A. Beschreibung der zu erhebenden Forschungsdaten

Wir sind das Pharmaunternehmen Health future und haben vor, eine Studie über das Krankheitsbild von Brustkrebspatienten durchzuführen, mit dem Ziel Informationen über die Diagnosen, Vorgehensweisen und Medikamente zu erhalten, um somit Zusammenhänge zwischen der Diagnose und der Behandlung zu identifizieren und zu verstehen.

Die Daten, die wir vom Krebszentrum erhalten haben, befinden sich in Google Drive im Ordner Brustkrebs Daten.

B. Verarbeitungsschritte der Rohdaten und Datenanalyse

Die Qualität der Daten wurde im Abschnitt Datenqualität untersucht. Die Beschreibung der Daten und der Abhängigkeit findet sich im Abschnitt Modell der Krebsdaten wieder.

Die Daten der ausgewählten Tabellen werden mithilfe von SQLite in eine Datenbank für die weitere Analyse geladen. Alle durchgeführten Schritte sind im folgenden Notebook Transform.ipynb enthalten.

Alle Datentransformationen sind im Abschnitt ETL-Prozess beschrieben.

C. Maßnahmen zur Qualitätssicherung

Die Risikoanalyse ist im Abschnitt Datenschutzfolgeabschätzung dokumentiert.

3.2. Datenspeicherung und Datenzugriff

Die Datenspeicherung der Daten erfolgt zunächst als einzelne *.CSV Tabellen, die auf Google-Drive.

Den Schreibzugriff auf die Shared-Drive Funktionen erhalten lediglich die Mitglieder der Studie. Nach erfolgreichem ETL-Vorgang erfolgt die Ablage der entstandenen Data Warehouse[1] Datenbank in einem Google-Drive-Ordner.

Die Daten sind eindeutig identifizierbar.

Versionierung: Die Daten werden durch Githubs Versionierungsmechanismus automatisch versioniert. Auf Google Drive sind die Daten nicht versioniert, liegen also stets nur in der aktuellsten Form in Google Drive vor.

Organisation und Dokumentation: Die Projektdokumentation erfolgt über die Wiki-Funktion von GitHub. Die Projektorganisation erfolgt mittels Aufgabenzuweisungen auf der Kaban-Tafel im GitHub.

Datenerhaltung/Sicherungskopie: Die Daten auf Google Drive und GitHub werden von den Betreibern Google/Github gesichert, welche auch eine redundante Speicherung in einer verteilten Datenbank vorsehen. Zusätzliche Sicherungskopien werden nicht angelegt, jedoch sind die Rohdaten ebenfalls auf den lokalen Rechnern der Gruppenmitglieder gespeichert.

Zugriffssicherheit: Sowohl die Daten, welche auf Github abgelegt sind, als auch die Google-Drive-Daten sind öffentlich einsehbar, Schreibzugriff haben in beiden Fällen jedoch nur die Gruppenmitglieder. Eine Verschlüsselung erfolgt, der Einfachheit halber, nicht.

[1] Data Warehouse: eine für Analysezwecke optimierte zentrale Datenbank, die Daten aus mehreren, in der Regel heterogenen Quellen zusammenführt

3.3. Datendokumentation und Metadaten

A. Dokumentation der Forschungsdaten Es folgt eine kurze Beschreibung der verwendeten Tabellen hinsichtlich deren Informationsgehaltes und der Schemata sowie der Metadaten.

Tabelle patients

Die Tabellenzeilen beinhaltet Informationen zu einem Patienten, welcher durch das Attribut id identifiziert eindeutig beschrieben wird. Weiterhin finden sich personenbezogene Daten wie Vor- und Nachname, Geschlecht und vollständige Adresse. Des Weiteren auch zwei Attribute bezüglich Krankenversicherung des jeweiligen Patienten welche Informationen zu den Krankeversicherungskosten (HEALTHCARE_EXPENSES) und abgedeckten Krankenversicherungskosten (HEALTHCARE_COVERAGE) findet.
Tabelle conditions

Die Tabelle beinhaltet Informationen zu der Krankheitszustand von Patienten. Ein Patient wird hierbei über das Attribut Id aus der Tabelle patients identifiziert. Der Krankheitszustand des Patienten ist notiert als eine SNOMED-CT Id und durch das Attribut Beschreibung (DESCRIPTION) in Schrift notiert.
Tabelle procedures

Die Tabelle beinhaltet Infornmationen zum Vorgehen bei entsprechender Krankheit eines Patienten. Hierbei kann ein Patient auch mehrmals referenziert werden, da unterschiedliche Krankheitszustände vorliegen können oder bei wiederauftretender, erneuter Behandlung erforderlich sind. Das Vorgehen wird durch eine SNOMED-CT (Procedure) Id und deren korrespondieren Beschreibung festgehalten.
Tabelle observations

Die Tabelle beinhaltet Informationen zu den medizinische Behandlungen eines Patienten und wird durch die Id eines Patienten zu einem Zeitraum gekennzeichnet, welches durch das Attribut Datum (DATE) beschrieben wird. Das Attribut Bechreibung (Description) enthält Information zum Zustand eines Patienten ( Wertebereich [QALY, DALY, QOLS] ) und dem berechnete Wert (VALUE).
Tabelle medications

Die Tabelle beinhaltet Informationen zu den Medikamenten eines Patienten und wird durch die Id eines Patienten gekennzeichnet. Die Attribute START und STOP beschreiben in welcher Periode/Zeit die Medikamenten eingenommen wurden. Das Attribut Beschreibung (Description) enthält den Namen des Medikaments.

3.4. Data Sharing

Data Sharing beschreibt den Umgang mit Anfragen auf Einsicht in die von uns durchgeführten Analysen und deren zugrundeliegenden Daten und Metadaten

A. Publikation, Verfügbarmachung der Daten

Bei den publizierten Daten handelt es sich um Daten des Krebszentrums "Gesund werden". Mit der Genehmigung des Krebszentrums, planen wir diese Daten sowie den von uns geschriebenen Code in vollem Umfang verfügbar zu stellen. Wir stimmen mit der Deklaration des an der Universität Stanford beheimateten WaveLabs überein, die besagt, dass die Beschreibung der Vorgehensweise und Darstellung der Ergebnisse lediglich Werbung für die wissenschaftliche Arbeit sind, zu deren Umfang die gesamten notwendigen Bausteine gehören die zur Reproduktion jedes einzelnen Ergebnisses benötigt werden. Die Nutzungsbedingungen entsprechen der Apache 2.0 Lizenz.

B. Langzeitarchivierung

Wir möchten die Daten nach den FAIR Prinzipien auf lange Frist zugänglich machen. Die FAIR Prinzipien werden von den G20 Staaten und einer Reihe von renommierten Universitäten unterstützt. Die Prinzipien geben vor, dass man die gewünschten Daten innerhalb des Datensatzes leicht auffinden kann und diese dem Nutzer zugänglich sind, weiterhin sollen die Daten auf eine Art und Weise formatiert und beschrieben sein, welche deren Nutzung in Applikationen ohne große Hindernissen möglich machen. Die Daten müssen außerdem domänenspezifische Standards erfüllen (wie z.B einen hinreichenden Schutz der Privatsphäre und domänenkonforme Benennung) die deren Wiederverwendung in anderen Projekten begünstigen.

Die gute, wissenschaftliche Praxis der DFG sieht vor, dass die Forschungsdaten für mindestens 10 Jahre archiviert werden. Aufgrund der Kooperation mit der Hochschule Mannheim erfolgt die Archivierung in der hochschulinternen Cloud der Hochschule Mannheim.