Datenschutzfolgeabschätzung - Fuenfgeld/DMA2024TeamB GitHub Wiki

PRECISE_BC

Dies ist ein Data Management Projekt welches im Rahmen des Online-Masters „Biomedizinische Informatik und Data Science“ der Hochschule Mannheim durchgeführt wird. Zweck ist in erster Linie die Illustration der Durchführung und umfassende Dokumentation eines datenbasierten Forschungsprojekts.

Kurzbeschreibung des Projektes

Im Projekt PRECISE_BC werden die Auswirkungen von Komorbiditäten auf die Lebensqualität von Patientinnen und Patienten mit Brustkrebs untersucht. Hierzu müssen umfangreiche personenbezogene Daten und Gesundheitsdaten von Patientinnen und Patienten erhoben, verarbeitet und gespeichert werden.

Obwohl für diese Projekt synthetische Daten verwendet wurden und diese selbst keine personenbezogenen Informationen enthalten, können sie dennoch sensible Informationen oder Muster enthalten, die Rückschlüsse auf reale Personen ermöglichen könnten, insbesondere wenn sie in Verbindung mit anderen Datenquellen verwendet werden (hier nicht der Fall). Daher ist es wichtig, potenzielle Datenschutzrisiken zu identifizieren und angemessene Schutzmassnahmen zu ergreifen.

Gemäss Art. 9 Abs. 1 DSGVO werden Gesundheitsdaten als Daten besonderer Kategorien eingestuft und verlangen daher eine DSFA.

Personen bezogene Daten

Die verwendeten Quelldaten enthalten umfangreiche personenbezogene Daten wie BirthDate (Geburtsdatum), Ethnicity (Ethnischer Ursprung), Gender (Geschlecht) sowie komplette Adresse (Address (Adresse), City (Stadt), County (County), State (Staat), ZIP (Postleitzahl)) und weitere, vergl. Tabelle "Patient" in den Quelldaten.

Zusätzlich enthält jeder Patienten-Datensatz eine ID, welche den Patienten innerhalb des gesamten Datensatzes eindeutig identifiziert.

Ausserdem werden im gesamten Projekt personenbezogene Gesundheitsdaten, wie Diagnosen, erfolgte Behandlungen und Therapien erfasst, gespeichert und verarbeitet. Diese fallen als besondere Kategorie personenbezogener Daten ebenfalls unter Art. 9 DSGVO.

Massnahmen zur Risikominderung

Analyse der Datenerzeugungsmethoden

Auf Grund der Verwendung von synthetischen Daten muss eine Analyse der Datenerzeugungsmethode erfolgen. Die Grundlage von Synthea™ basiert auf mehreren Prinzipien und Techniken:

Generative Modellierung: Synthea™ verwendet generative Modelle und Algorithmen, um realistische Patientendaten zu erstellen, die auf statistischen Annahmen, medizinischem Wissen und den Eigenschaften echter Gesundheitsdaten basieren. Dabei werden verschiedene Faktoren wie demografische Merkmale, medizinische Vorgeschichte, Krankheitsverläufe und Behandlungen berücksichtigt.

Anonymisierung: Synthea™ stellt sicher, dass die generierten Patientendaten keine direkten Verbindungen zu realen Personen aufweisen und somit die Privatsphäre und den Datenschutz gewährleisten. Persönlich identifizierbare Informationen werden anonymisiert oder pseudonymisiert, um die Rückverfolgbarkeit zu verhindern.

Anonymisierung / Pseudonymisierung

Da es sich in unserem Projekt um synthetische Daten handelt, werden die Quelldaten (.csv Files) trotz der enthaltenen personenbezogenen Daten nicht anonymisiert oder pseudonymisiert und unverändert im GitHub Repository bereitgestellt. Im realen Leben würden diese Informationen beispielsweise in einem Patienteninformationssystem gespeichert, das über eine Regulierung verfügt und das durch diverse Sicherheitsmassnahmen gegen unbefugten Zugriff schützt ist.

Zwecks Übung wurden folgende Überlegungen zur Anonymisierung und Aggregation sensibler Informationen im ETL-Prozess durchgeführt:

  • Im Sinne der Datenminimierung werden nur die für die Beantwortung der Forschungsfrage relevanten personenbezogenen Informationen aus der Quelldatendatenbank in die Data Warehouse-Datenbank überführt.

  • Pseudoanonymisierung: Ersetzten der Synthea™ Patienten-ID und der Primärtumor-ID durch eine kryptografische Hash-FUnktion. Im folgenden COLAB-BOOK ist der Anonymisierungsprozess für die Patienten-IDs beschrieben: Anonymisierung_PatientID und der für die Primärtumor-IDs: Anonymisierung_Primary_Tumor_ID

  • Aggregation von Informationen: Ersetzen des Geburtsdatums durch Alterskategorien, z.B. 40-45 Jahre, 45-50 Jahre usw.

Detailierte Informationen zum Anonymisierungsprozess sind unter Anonymisierung dokumentiert.

Zugriff

Alle in diesem GitHub-Repository enthaltenen Informationen, inklusive der Quelldaten, sind öffentlich zugänglich.

Mögliche Risiken bezüglich der Daten allgemein

Datenverlust

Es besteht grundsätzlich die Möglichkeit, dass die gespeicherten und verarbeiteten Informationen verloren gehen, beispielsweise aufgrund von technischen Schwierigkeiten oder Cyber-Angriffen. Die Wahrscheinlichkeit eines Missbrauchs personenbezogener Daten im Falle eines Datenverlusts ist aufgrund der synthetischen Natur der verwendeten Daten sehr gering.

Datenmissbrauch

Im Falle einer rechtswidrigen Nutzung von Quellen und Informationen könnten die Quellen- und personenbezogenen Daten zur illegalen Nutzung oder Manipulation von Personen verwendet werden. Aufgrund der synthetischen Beschaffenheit der Daten, die keinerlei Beziehung zu realen Personen aufweisen, wird die missbräuchliche Nutzung der Daten als äusserst gering angesehen.

Anderes Risiko

Eine absichtliche oder unabsichtliche Kontaminierung der Daten durch am Projekt beteiligte Personen ist nicht auszuschliessen. Zusätzlich erfolgt nach Abschluss der Studie keine weitere Überprüfung der hier dokumentierten Codes und Daten. Bestimmte Softwarebibliotheken sind für die korrekte Durchführung der Untersuchung erforderlich. Zugrundeliegende Infrastrukturdienste wie GitHub oder Google Drive können vom Betreiber eingestellt werden. Eine Haftung für die Kontamination mit Malware oder Schadsoftware kann nicht übernommen werden. Die Ausführung der Codes erfolgt auf eigene Gefahr.

Grad des Risikos laut Risikoanalyse

Gemäss Risikoanalyse werden die Restrisiken von Datenverlust (1), Datenmissbrauch (2) und mögliche Kontaminierung mittels Schadsoftware (3) als geringe Risiken eingestuft. Sowohl die Schwere, als auch die Eintrittswahrscheinlichkeit des möglichen Schadens ist gering. Dadurch ergeben sich laut DSGVO folgende Ausnahmen verschiedener Verpflichtungen, so dass diese Maßnahmen nicht durchgeführt werden müssen:

  • Bei einer Datenschutzverletzung ohne Risiko (z. B. Fehlversand innerhalb einer Organisation) muss die Datenschutzaufsichtsbehörde nicht informiert werden.
  • Ein Verzeichnis der Verarbeitungstätigkeiten ist bei geringem Risiko nicht zu erstellen.

Schutzmassnahmen

Das primäre Ziel des im Rahmen des Masterstudiengangs Biomedizinische Informatik und Data Science hier durchgeführten Projektes, ist die Illustration der Durchführung und umfassende Dokumentation eines datenbasierten Forschungsprojekts. Zu diesem Zweck wurden synthetisch generierte Patientendaten verwendet. Daher sind nur sehr wenige Schutz- und Abhilfemassnahmen erforderlich. Zu Übungszwecken wurden die folgenden Massnahmen ungesetzt, um das Vorgehen in einem Projekt mit echten retrospektiven Patientendaten abzubilden:

  • Datenminimierung: Nur die für die Beantwortung der Forschungsfrage relevanten personenbezogenen Informationen werden aus der Quelldatendatenbank in die Data Warehouse-Datenbank überführt. ->Reduzierung Risiko für Datenmissbrauch
  • Pseudoanonymisierung: Ersetzten der Synthea™ Patienten-ID durch eine zufällige, fortlaufende Studien-ID, damit ein Rückschluss auf Patienten anhand dieser Identifikationsnummern nicht mehr möglich ist. ->Reduzierung Risiko für Datenmissbrauch
  • Aggregation von Informationen: Ersetzen des Geburtsdatums durch Alterskategorien. ->Reduzierung Risiko für Datenmissbrauch
  • IT-System: Verwendung von IT-Infrastrukturen mit Versionskontrolle und zugrundeliegendem Backup-Konzepten (Google Drive und GitHub). -> Reduzierung Risiko für Datenverlust und Kontaminierung

Die folgenden Schutz- und Abhilfemassnahmen sind erforderlich, um den Schutz und die Sicherheit von reellen retrospektiven Patientendaten unter anderem zu gewährleisten:

  • Ein gesichertes zugriffsgeschütztes System zur Speicherung und Verarbeitung der Quelldaten
  • Individuelle Zugriffsskontrolle der Datenbank/ Datenbanken.
  • Datenverarbeitung nur für die in der Patienteninformation und -einwilligung festgelegten Zwecke.
  • Anonymisierung (inklusive Überprüfung) oder Pseudonymisierung, bevor die Daten für Forschungs- und Publikationszwecke bereitgestellt werden.
  • Trennung der Speicherorte von personenbezogenen Daten und pseudoanonymisierten medizinischen Daten (Informationelle Gewaltenteilung).