Datenschutzfolgeabschätzung - Fuenfgeld/DMA2022DataProjectB GitHub Wiki

Kurzbeschreibung des Projektes (Zweckbestimmung)

Die im Rahmen dieses Projekts verwendeten Daten wurden mit Einwilligung der Patienten erworben. Die Daten dienen der Beantwortung unserer Forschungsfrage: .

Gemäß Artikel 9 Absatz 1 der Datenschutz-Grundverordnung (DSGVO) handelt es sich bei den vorliegenden Daten um besondere Kategorien von personenbezogene Daten (Informationen über medizinische Konditionen) die umfangreich im Rahmen unserer Analysen verarbeitet werden sollen.

Personenbezogene Daten

Aufbau des Datensatzes

Die Daten des Datensatzes liegen in Form von fünf .csv Dateien vor.

  • conditions.csv
  • medications.csv
  • observations.csv
  • patients.csv
  • procedures.csv

Die einzelnen für unsere Analyses genutzten Daten enthalte eine Vielzahl von Spalten, die persönlichen Informationen enthalten. Ein Teil dieser Spalten reicht schon einzeln aus, um eine Person eindeutig zu identifizieren. Darunter fallen

  • Führerscheinnummer (DRIVERS in patients.csv)
  • Passportnummer (PASSPORT in patients.csv)

Weiterhin enthalten die Dateien des Datensatzes Spalten, welche jeweils andere persönlichen Informationen enthalten. Im Falle von patients.csv: Namen, Vornamen, Ehestatus, Rasse, Ethnizität, Geschlecht, Geburtsort, Geburtsdatum. In conditions.csv, observations.csv und procedures.csv enthalten ebenfalls personenbezogene Daten, siehe Datenmanagementplan 3.3.

Reduzierung und Anonymisierung der Daten

Personenbezogene Spalten, deren Informationen für unsere Analyse irrelevant sind, werden zuerst entfernt. Darunter fallen Führerscheinnummer, Ausweisnummer, Namen und Ehestatus. Ausgaben in Dollar werden spaltenweise normalisiert.

Alle Attribute, die zur Identifizierung der Personen, deren Daten im Datensatz enthalten sind, führen könnte, werden durch Hashfunktionen anonymisiert, für weiteren Schutz werden diverse Informationen in granulärer Form abgespeichert. So z. B. Geburtsjahr und Postleitzahl statt Geburtsdatum und genauerer Adresse. Eine Anonymisierung ist bei derart sensiblen Daten einer Pseudonymisierung vorzuziehen.

Zugriff und auf Daten und Lagerung

Nur eingetragene Mitglieder des Forschungsteams haben Zugriff auf die Daten. Dem Hinzufügen weiterer Mitglieder muss eine Einholung der Zustimmung aller Patienten, deren Daten im Datensatz vorkommen, vorangehen. Die anonymisierten Daten fallen laut europäischen Recht nicht unter die DSGVO und können so frei zugänglich gemacht werden. Die Daten werden in einem sich auf dem Gelände des Forschungsinstituts befindlichen Server gespeichert. Die IT des Institutes erfüllt die Anforderungen des BSI Standard 200-2 Standards zur Umsetzung des IT-Grundschutzes des Bundesamts für Sicherheit in der Informationstechnik (BSI). Im Rahmen guter wissenschaftlicher Praxis werden die Daten für 10 Jahre aufbewahrt und danach vernichtet.

Risiken

Zu den möglichen Risiken in Bezug auf die Datensicherheit zählt der unzweckmäßige Gebrauch der Daten außerhalb der zur Beantwortung der Forschungsfrage notwendigen Analysen und deren unrechtmäßige Verbreitung außerhalb der für die Beantwortung der Forschungsfrage genutzten Geräte, Räumlichkeiten und des involvierten Personenkreises. Eine unrechtmäßige Verbreitung kann durch das Abfließen der Daten in digitaler als auch analoger Form erfolgen, weiterhin stellt die verbale Kommunikation an Personen außerhalb des Forschungsteams ebenfalls eine Verbreitung dar, die gegebenenfalls unrechtmäßig ist. Die unrechtmäßige Verbreitung kann absichtlich, unwissentlich von Teammitglieder oder durch unrechtmäßige Aneignung oder Verfügbarmachung durch außenstehender Personen geschehen.

Datenverlust:

Ein Verlust der Daten führt per se nicht zu Risiken für die Personen, auf deren Daten der Datensatz basiert. Nur in Kombination mit der Verbreitung des Datensatzes an anderer Stelle ergeben sich Risiken des Datenmissbrauchs.

Datenmissbrauch:

Sollte es zu einer unrechtmäßigen Verbreitung der rohen Daten kommen, so können diese dazu genutzt werden, präzise Informationen über die geografische Lokation, gesundheitliche Zustände und Geschichte sowie Interaktionen mit dem Gesundheitssystem der betroffenen Personen zu erlangen. Durch Erlangen dieser Informationen Möglichkeit potenziell kriminelle Handlungen zu begehen, was einen Fall von Datenmissbrauch konstituiert.

Weitere Risikos

Eine Kontaminierung der Daten, absichtlich oder unabsichtlich durch an dem Forschungsprojekt beteiligte Personen kann nicht ausgeschlossen werden. Das einhalten

Missbrauch durch Kombination mit Zusatzwissen von Dritten: Die rohen Daten in ihrer reinen Form ermöglichen es schon, die Person eindeutig zu identifizieren. Das Zusatzwissen von Dritten kann diesen Schaden weiterhin potenzieren.

Grad des Risikos laut Risikoanalyse

Laut Risikoanalyse wird die Eintrittswahrscheinlichkeit für Datenverlust, Datenmissbrauch oder mögliche Kontaminierung aufgrund der normkonformen Sicherheitsstandards des Instituts als sehr gering eingestuft. Der potenzielle Schaden, der vor allem durch unrechtmäßige Verbreitung der Daten entstehen könnte, ist jedoch als gravierend bis groß einzustufen. Die gesamte Risikostufe ist somit Gelb (Normal), aus diesem Grund muss keine Datenschutzfolgeanalyse durchgeführt werden.

Schutzmaßnahmen

Durch Lagern der Daten auf einem gesicherten Server, ausschließliche Verwendung zertifizierter Geräte zur Analyse und Anonymisierung der Daten für Publikationszwecke und wissenschaftliche Kooperation werden größtmögliche Anstrengungen getroffen, um die oben genannten Risiken zu minimieren