ETL Prozess - Fuenfgeld/DMA2022DataProjectB GitHub Wiki

Einleitung

Der ETL-Prozess wurde mit folgenden Schritten ausgeführt:

Identifikation der redundanten und fehlenden Daten. Die Ergebnisse zu diesem Abschnitt sind in Datenqualität dargestellt.
Untersuchung der erhaltenen Informationen auf kritische Daten, die wegen Datenmissbrauch und Sicherheitsstandards anonymisiert oder gelöscht werden müssen. In der Datenschutzfolgeabschätzung ist die Risikoanalyse beschrieben.
Identifikation der Abhängigkeit der Daten in den Tabellen. Die Daten und ihre Abhängigkeit sind im Modell der Brustkrebsdaten beschrieben.
Durchführung der notwendigen Schritten zur Transformation der Daten in das Sternschema.

Dokumentation der Schritte zur Erstellung des Datenschemas

Für den Aufbau des Sternschemas haben wir folgende Transformationsschritte durchgeführt:

Die Datenbanktabellen conditions, medications, procedures, observations und patients stehen mit dem Attribut Patient_Id in Abhängigkeit zu einander, wie in der folgenden Abbildung dargestellt.

Brustkrebsdaten

Das Sternschema für das Datenmodell ist geeignet zur Beantwortung unserer Fragestellung. Das Modell besteht aus einer Faktentabelle und mehreren Dimensionstabellen.

Anonymisierung der Daten Bei der Erstellung des Datenmodells wurden die kritischen Daten nicht in die neue Tabelle übernommen. Die Informationen über Name, Nachname, Ausweis, Führerschein und Adresse wurden aus den Daten gelöscht, sodass die Patienten nur anhand des Primärschlüssels identifizierbar sind. Aus der Information des Geburtsdatums wurde nur das Geburtsjahr in die neue Tabelle übernommen. Nach der Anonymisierung entsteht eine neue Dimensionstabelle patients_new, die alle benötigten Daten für unsere Studie beinhaltet:

Mappingtabelle patients_new

Die Tabellen conditions, medications, procedures, observations werden mit den Primärschlüsselattribiuten MEDICATIONS_ID, PROCEDURES_ID, OBSERVATIONS_ID, CONDITIONS_ID zur eindeutigen Identifizierung jeder Datenzeile versehen. Hiefür wurden neue Tabellen durch den Ausdruck _new gekennzeichnet. Bei der Erstellung erhalten sie automatisch generierte Primärschlüssel und werden mit den Daten aus den alten Tabellen befüllt.

Zur Übersicht aller Forschungsdaten werden die einzelnen Mapping-Tabellen dargestellt:

Erstellung der Faktentabelle:

Die Faktentabelle patient_careplans entsteht, indem wir nur die Patienten mit den Krankheitszuständen aus der Tabelle conditions_new nehmen und diese verknüpfen mit den Tabellen medications_new, procedures_new und observations_new. Die Primärschlüssel PATIENT_ID, MEDICATIONS_ID, PROCEDURES_ID, OBSERVATIONS_ID, CONDITIONS_ID werden als Fremdschlüssel zu den Tabellen patients_new, conditions_new, medications_new, procedures_new, observations_new referenziert. Die Ergebnisse werden anschließend in der neuen Tabelle patient_careplans vereinigt. Die Faktentabelle erhält den neuen Primärschlüssel CAREPLAN_ID.

Mappingtabelle patient_careplans

Datenmodell nach dem ETL-Prozess:

Sternschema

Die Transaktionen der Daten werden im folgenden Notebook: Transform.ipynb durchgeführt.