Datenmanagementplan - Fuenfgeld/DMA2022DataProjectB Wiki

Inhaltsverzeichnis

  1. Administrative Daten
  2. Verantwortlichkeiten
  3. Datenmanagement
    1. Datenerhebung
    2. Datenspeicherung und Datenzugriff
    3. Datendokumentation und Metadaten erstellen
    4. Data Sharing

1. Administrative Daten

Projekt Beschreibung
Projekt ID --
Projektname DMA2022DataProjectB
Projekttitel Analyse von Brustkrebsdaten
Projektbeschreibung mit Datensatzbeschreibung Warum werden Daten erhoben ?Für wen nützlich ? {Fiktivs Szenario hier beschreiben und mit Fragestellung kombinieren}
Projektlaufzeit (Beginn/Ende) von 02.06.2022 bis 07.07.2022
Forschungsförderer und –programm bzw. Eigenfinanzierung Die Forschung erfolgt in Eigenfinanzierung 
Projektleiter Leitung und Betreuung des Studienmoduls erfolgt durch Maximilian Fünfgeld
Relevante Policies (falls vorhanden) --
Datum der Erstellung/Änderung DMP 09.06.2022
Version 1.0


2. Verantwortlichkeiten (Kontaktdaten)

Rolle Name Kommentar Kontaktdaten
Forscher, Datenmanager Shayan Mohajerani Datenmanagementorganisation, Datenspeicherung und Langzeitarchivierung, Datenanalyse [email protected]
Forscher, Datenmanager Christian Singer  Datenmanagementorganisation, Datenspeicherung und Langzeitarchivierung, Datenanalyse [email protected]
Forscher, Datenmanager Mariia Robota   Datenmanagementorganisation, Datenspeicherung und Langzeitarchivierung, Datenanalyse [email protected]
Forscher, Datenmanager Ahmad Al-Taie  Datenmanagementorganisation, Datenspeicherung und Langzeitarchivierung, Datenanalyse [email protected]


3. Datenmanagement

3.1. Datenerhebung (Daten generieren und bearbeiten)

A. Beschreibung der zu erhebenden Forschungsdaten

Es erfolgt eine Sekundäranalyse auf bereits existierenden Datenbeständen. Die Datengrundlage dieses Projekts bilden synthetische Patientendaten, welche mittels SyntheaTM erstellt wurden. SyntheaTM generiert qualitativ hochwertige synthetische, realistische, aber nicht reale Patientendaten und zugehörige Gesundheitsakten, die alle Aspekte der Gesundheitsversorgung abdecken.

Der Aufbau der Daten wird hier beschrieben.

Da es sich nicht um reale Patientendaten handelt muss keine vorherige Einwilligung zur Studienteilnahme erfolgen.

Die benötigte für die Studie Tabellen befinden sich in der Folder Brustkrebs Daten.

B. Verarbeitungsschritte der Rohdaten und Datenanalyse

Transkription, Bereinigung, Anonymisierung

Die Daten aus der ausgewählten Tabellen werden mithilfe sqlite in eine Datenbank für weitere Analyse geladen.

Die statistische Analyse erfolgt mit …

C. Maßnahmen zur Qualitätssicherung

To Do

Die Qualität der Daten wird überprüft auf … mittels …

3.2. Datenspeicherung und Datenzugriff (erster Entwurf, wird fortlaufend angepasst)

Datenspeicherung: Die Speicherung der Daten erfolgt zunächst als einzelne *.CSV Tabellen, die innerhalb des Google-Drive/Github in einem geteilten Ordner abgelegt werden.

Schreibzugriff auf die Shared-Drive Funktionen erhalten die Mitglieder dieser Arbeitsgruppe sowie der Dozent. Nach erfolgreichem ETL-Vorgang, erfolgt die Ablage der entstandenen Data Warehouse[1] Datenbank in einen öffentlich zugänglichen Google-Drive-Ordner/Github.

Die Daten sind eindeutig identifizierbar.

Versionierung: Auf Github sind die Daten durch Githubs Versionierungsmechanismus versioniert. Auf Google Drive sind die Daten nicht versioniert, liegen also stets nur der aktuellsten Form in Google Drive vor.

Organisation und Dokumentation: Die Projektdokumentation erfolgt über die Wiki-Funktion von GitHub. Die Projektorganisation erfolgt mittels Aufgabenzuweisungen auf GitHub. (siehe https://github.com/Fuenfgeld/DMA2022DataProjectB/projects/1)

Datenerhaltung/Sicherungskopie: Die Daten auf Google Drive und GitHub werden von den Betreibern Google/Github gesichert, welche auch eine redundante Speicherung in einer verteilten Datenbank vorsehen. Zusätzliche Sicherungskopien werden nicht angelegt, jedoch liegen die Rohdaten auf den lokalen Rechnern der Gruppenmitglieder.

Zugriffssicherheit: Sowohl die Daten, welche auf Github abgelegt sind als auch die Google-Drive-Daten sind öffentlich einsehbar, Schreibzugriff haben in beiden Fällen jedoch nur die Gruppenmitglieder (in Github hat außerdem noch Maximilian Fünfgeld als Ersteller des Repositoriums Schreibzugriff). Eine Verschlüsselung erfolgt, der Einfachheit halber, nicht.

[1] Data Warehouse: eine für Analysezwecke optimierte zentrale Datenbank, die Daten aus mehreren, in der Regel heterogenen Quellen zusammenführt

offene Fragen:

  1. Werden Dateien in Drive & Github gespeichert?
  2. Ist mit eindeutig identifizierbarern Daten gemeint, dass Daten nicht doppelten/redundanten vorhanden sind??
  3. Was ist das HLZ?
  4. Erfolgen irgendwelche Sicherungsmaßnahmen seitens Herrn Fünfgeld?

3.3. Datendokumentation und Metadaten erstellen

A. Dokumentation der Forschungsdaten Es folgt eine kurze Beschreibung der verwendeten Tabellen hinsichtlich deren Informationsgehaltes und der Schemata sowie Metatdaten.

  1. Tabelle Patients

    Die Tabelle beinhaltet Informationen zu einem Patienten, welcher durch das Attribut id identifiziert eindeutig beschrieben wird. Weiterhin finden sich personenbezogene Daten wie Vor- und Nachname, Geschlecht und vollständige Adresse. Des Weiteren auch zwei Attribute bezüglich Krankenversicherung des jeweiligen Patienten welche Informationen zu den Krankeversicherungskosten (HEALTHCARE_EXPENSES) und abgedeckten Krankenversicherungskosten (HEALTHCARE_COVERAGE) findet.

  2. Tabelle Condition

    Die Tabelle beinhaltet Informationen zu der Kondition von Patienten. Ein Patient wird hierbei über das Attribut id aus der Tabelle Patient identifiziert. Die Kondition des ist notiert als eine SNOMED CT id und
    durch das Attribut Beschreibung (DESCRIPTION) in Schrift notiert. Spalte Encounters -->?

  3. Tabelle Procedures

    Die Tabelle beinhaltet Infornmationen zu den Vorgehen bei entsprechender Krankheit eines Patienten. Hierbei kann ein Patient auch mehrmals referenziert werden, da unterschiedliche Konditionen vorliegen können oder bei wiederauftreten eine erneute Behandlung erforderlich ist. Das Vorgehen wird durch eine SNOMED CT (Procedure) Id und deren korrespondieren Beschreibung festgehalten. Spalte Encounters -->?

  4. Tabelle Observations

    Die Tabelle beinhaltet Informationen zu den medizinische Obversationen eines Patienten gekenzeichnet durch die ID eines Patienten hinsichtlich eines Datums beschrieben durch das Attribut Datum (DATE). Das Attribut Bechreibung (Description) enthält einen Wert zur Beschreibung des Zustandes eines Patienten ( Wertebereich [QALY, DALY, QOLS] ) und dem berechnete Wert (VALUE).

3.4. Data Sharing

Data Sharing beschreibt den Umgang mit Anfragen auf Einsicht in die von uns durchgeführen Analysen und deren zugrundeliegenden Daten und Metadaten

A. Publikation, Verfügbarmachung der Daten

Wir planen die gesamten uns zu Verfügung stehenden Daten und Metadaten, sowie den von uns geschriebenen Code im vollen Umfang auf Anfrage verfügbar zu machen. Wir stimmen mit der Deklaration des an der Universität Stanford beheimateten WaveLabs überein die besagt, dass die Beschreibung der Vorgehensweise und Darstellung der Ergebnisse lediglich Werbung für die wissenschaftliche Arbeit sind zu deren Umfang die gesamten notwendigen Bausteine gehören die zur Reproduktion jedes einzelnen Ergebnis benötigt werden. Die Nutzungsbedingungen entsprechen der Apache 2.0 Lizenz.

B. Langzeitarchivierung

Wir möchten die Daten nach den FAIR Prinzipien auf lange Frist zugänglich machen. Die FAIR Prinzipien werden von den G20 Staaten und einer Reihe von renommierten Universitäten unterstützt. Die Prinzipien geben vor, dass man die gewünschten Daten innerhalb des Datensatzes leicht auffinden kann und diese dem Nutzer zugänglich sind, weiterhin sollen die Daten auf eine Art und Weise formatiert und beschrieben sein, welche deren Nutzung in Applikationen ohne große Hindernissen möglich machen. Die Daten müssen außerdem domänspezifische Standards erfüllen die deren wiederverwendung in anderen Projekten begünstigen.

⚠️ **GitHub.com Fallback** ⚠️