Datenqualität - Fuenfgeld/DMA2022DataProjectB GitHub Wiki

In der Datei Check.ipynb wurde die Qualität der Daten geprüft.

Punkte von Relevanz waren:

  • Ungültige Werte - Daten inspizieren und auf ungültige Werte prüfen
  • Primärschlüsselwahl - welche Variable eignet sich als Primärschlüssel
  • Duplikatprüfung
  • Tabellen verbinden - wie sollten die Tabellen optimalerweise verbunden (gejoint) werden

Ungültige Werte

Um die Tabellen etwas näher zu beleuchten wurden die Daten inspiziert und geprüft, ob sich ungültige Einträge in den Daten verbergen, hierfür kann die Pandas-Methode .isna() genutzt werden.

Die Prüfung der Tabellen auf ungültige Werte hat folgendes ergeben:

image

Man sieht, dass viele Spalten ungültige Werte enthalten, dies muss bei der Auswertung berücksichtigt werden.

Primärschlüsselermittlung

Um sicherzustellen, dass sich die Spalte Id als Primärschlüssel eignet, muss überprüft werden, ob die Id-Werte jeweils einmalig vorhanden sind, dies wird mit .is_unique() gemacht.

Die Prüfung hat ergeben, dass die Id-Werte einmalig vorhanden sind und sich die Spalte somit als Primärschlüssel eignet.

Duplikatprüfung

Um die Daten tiefergehend zu untersuchen, wurde noch geprüft welche Variablen in den Tabellen Duplikate sind und welche nicht.

Das Ergebnis kann man hier sehen:

image

Ausreißer identifizieren

Im Zuge der Studie der Krebsdaten, sollten auch Ausreißer identifiziert werden. Dies kann beispielsweise mit der plotly.express-Bibliothek umgesetzt werden.

Die untenstehende Grafik zeigt die Verteilung und Ausreißer in der Spalte TOTALCOST:

image

Schlussfolgerung

Die Datenprüfung hat gezeigt, dass das Attribut Id als Primärschlüssel genutzt werden kann. Mit der Hilfe des Attributs Id sind die Patienten eindeutig identifizierbar. Die Tabelle conditions enthält nur zu einem Teil der Patienten die Krankeheitszustände. Wir analysieren lediglich Patienten, die einen Krankheitszustand vorweisen.

⚠️ **GitHub.com Fallback** ⚠️