In der Datei Check.ipynb wurde die Qualität der Daten geprüft.

Punkte von Relevanz waren:

Ungültige Werte - Daten inspizieren und auf ungültige Werte prüfen
Primärschlüsselwahl - welche Variable eignet sich als Primärschlüssel
Duplikatprüfung
Tabellen verbinden - wie sollten die Tabellen optimalerweise verbunden (gejoint) werden

Ungültige Werte

Um die Tabellen etwas näher zu beleuchten wurden die Daten inspiziert und geprüft, ob sich ungültige Einträge in den Daten verbergen, hierfür kann die Pandas-Methode .isna() genutzt werden.

Die Prüfung der Tabellen auf ungültige Werte hat folgendes ergeben:

Man sieht, dass viele Spalten ungültige Werte enthalten, dies muss bei der Auswertung berücksichtigt werden.

Primärschlüsselermittlung

Um sicherzustellen, dass sich die Spalte Id als Primärschlüssel eignet, muss überprüft werden, ob die Id-Werte jeweils einmalig vorhanden sind, dies wird mit .is_unique() gemacht.

Die Prüfung hat ergeben, dass die Id-Werte einmalig vorhanden sind und sich die Spalte somit als Primärschlüssel eignet.

Duplikatprüfung

Um die Daten tiefergehend zu untersuchen, wurde noch geprüft welche Variablen in den Tabellen Duplikate sind und welche nicht.

Das Ergebnis kann man hier sehen:

Ausreißer identifizieren

Im Zuge der Studie der Krebsdaten, sollten auch Ausreißer identifiziert werden. Dies kann beispielsweise mit der plotly.express-Bibliothek umgesetzt werden.

Die untenstehende Grafik zeigt die Verteilung und Ausreißer in der Spalte TOTALCOST:

Schlussfolgerung

Die Datenprüfung hat gezeigt, dass das Attribut Id als Primärschlüssel genutzt werden kann. Mit der Hilfe des Attributs Id sind die Patienten eindeutig identifizierbar. Die Tabelle conditions enthält nur zu einem Teil der Patienten die Krankeheitszustände. Wir analysieren lediglich Patienten, die einen Krankheitszustand vorweisen.

Datenqualität - Fuenfgeld/DMA2022DataProjectB GitHub Wiki

Ungültige Werte

Primärschlüsselermittlung

Duplikatprüfung

Ausreißer identifizieren

Schlussfolgerung

⚠️ GitHub.com Fallback ⚠️

Datenqualität - Fuenfgeld/DMA2022DataProjectB GitHub Wiki

Ungültige Werte

Primärschlüsselermittlung

Duplikatprüfung

Ausreißer identifizieren

Schlussfolgerung

⚠️ **GitHub.com Fallback** ⚠️

⚠️ GitHub.com Fallback ⚠️