Datenanalyse und Resultate - Fuenfgeld/DMA2024TeamB GitHub Wiki
Datenanalyse
Die Datenanalyse wurde mit Phython durchgeführt. Der entsprechende Colab Code kann im Folgenden geöffnet und gestartet werden:
Datenanalyse Colab
Der vorliegende Code ist ein Auszug aus einer Datenanalyse, die als explorative Datenanalyse (EDA) bezeichnet wird. EDA ist eine Aufgabe, die von Datenwissenschaftlern durchgeführt wird, um sich mit den Daten vertraut zu machen. Der Code zeigt verschiedene Schritte, die zur Exploration der Daten durchgeführt werden.
Zuerst werden Bibliotheken installiert, darunter eine spezielle Version von "pandas-profiling". Dann werden die Datenbanktabellen aus der zuvor im Rahmen des ETL-Prozesses erstellten SQLite-Datenbank geladen, die verschiedene Patienteninformationen enthält. Es werden mehrere Datenbereinigungs- und Verständnisschritte durchgeführt, einschließlich dem Zusammenführen von mehreren Datensätzen basierend auf bestimmten IDs.
Ein wesentlicher Teil des Codes besteht darin, die Bibliothek "pandas-profiling" zu verwenden, um automatisch einen umfassenden Bericht über die Daten zu generieren. Es werden verschiedene Visualisierungen erstellt, um Beziehungen zwischen Variablen zu analysieren.
Ergebnisse
Auf Basis des vor der Analyse aufgestellten Statistischen Analyse Plans wurden mit Hilfe des EDA Codes die im Folgenden dargestellten Tabellen und Grafiken generiert.
Tabelle 1. Patienten Charakteristika
Patientenmerkmal |
Subkategorie |
N (%) |
Alter bei Diagnose |
<50 |
6 (54.5) |
|
>=50 |
5 (45.5) |
Ethnizität |
Nicht-Hispanisch |
9 (81.8) |
|
Hispanisch |
2 (18.2) |
Geschlecht |
Weiblich |
10 (90.9) |
|
Männlich |
1 (9.1) |
Marital Status |
Verheiratet |
9 (81.8) |
|
Ledig |
2 (18.2) |
Anzahl Komorbiditäten |
0 |
8 (72.7) |
|
1 |
1 (9.1) |
|
2 |
2 (18.2) |
|
3 oder mehr |
0 (0) |
HER2 positive |
|
1 (20) |
HR positive |
|
2 (40) |
Tumor Stage |
1 |
0 (0) |
|
2 |
2 (40) |
|
3 |
3 (60) |
|
Fehlend |
0 (0) |
Nodal Status |
N0 |
1 (20) |
|
N1 |
1 (20) |
|
N2 |
0 (0) |
|
N3 |
2 (40) |
|
Fehlend |
1 (20) |
Chemotherapie erhalten |
Ja |
4 (36.4) |
|
Nein |
7 (63.6) |
Andere Krebstherapie erhalten |
Ja |
4 (36.4) |
|
Nein |
7 (63.6) |
Sonstige Medikation |
Ja |
0 (0) |
|
Nein |
11 (100) |
Tabelle 2. Patientencharakteristika nach dem Komorbiditäts-Status
Patientenmerkmal |
Subkategorie |
Subgruppe ohne Komorbidität (N (%)) |
Subgruppe mit Komorbidität (N (%)) |
Alter bei Diagnose |
<50 |
6 (54.5) |
0 (0) |
|
>=50 |
2 (18.2) |
3 (27.3) |
Ethnizität |
Nicht-Hispanisch |
8 (72.7) |
1 (9.1) |
|
Hispanisch |
0 |
2 (18.2) |
Geschlecht |
Weiblich |
7 (63.6) |
3 (27.3) |
|
Männlich |
1 (9.1) |
0 (0) |
Marital Status |
Verheiratet |
6 (54.5) |
3 (27.3) |
|
Ledig |
2 (18.2) |
0 (0) |
Anzahl Komorbiditäten |
0 |
8 (72.7) |
0 (0) |
|
1 |
0 (0) |
1 (9.1) |
|
2 |
0 (0) |
2 (18.2) |
|
3 oder mehr |
0 (0) |
0 (0) |
HER2 positive |
|
1 (9.1) |
10 (90.9) |
HR positive |
|
1 (9.1) |
10 (90.9) |
Tumor Stage |
1 |
0 (0) |
0 (0) |
|
2 |
1 (9.1) |
1 (9.1) |
|
3 |
6 (54.5) |
2 (18.2) |
|
Fehlend |
1 (9.1) |
0 (0) |
Nodal Status |
N0 |
0 (0) |
1 (9.1) |
|
N1 |
5 (45.5) |
1 (9.1) |
|
N2 |
0 (0) |
0 (0) |
|
N3 |
1 (9.1) |
1 (9.1) |
|
Fehlend |
2 (18.2) |
0 (0) |
Chemotherapie erhalten |
Ja |
2 (18.2) |
2 (18.2) |
|
Nein |
3 (27.3) |
1 (9.1) |
Andere Krebstherapie erhalten |
Ja |
3 (27.3) |
1 (9.1) |
|
Nein |
2 (18.2) |
2 (18.2) |
Sonstige Medikation |
Ja |
0 (0) |
0 (0) |
|
Nein |
11 (100) |
11 (100) |
Tabelle 3: Primäres Studienziel - Einfluss von Komorbiditäten auf QoL
Vergleichsgruppen |
mit Komorbidität |
ohne Komorbidität |
p-Wert |
|
Mittelwert (QoL) ± STABW |
Mittelwert (QoL) ± STABW |
Mann-Whitney U-Tests |
QoL (erster nach Diagnose) |
0.87 (0.12) |
0.89 (0.09) |
p= 0.805 |
QoL (letzter dokumentierter) |
0.77 (0.12) |
0.86 (0.08) |
p= 0.232 |
QoL (Diff) |
-0.10 (0.20) |
-0.03 (0.10) |
p= 0.555 |
Tabelle 4: Altersbedingte QoL-Analyse
Vergleichsgruppen |
Alter >=50 |
Alter <50 |
p-Wert |
|
Mittelwert (QoL) ± STABW |
Mittelwert (QoL) ± STABW |
Mann-Whitney U-Tests |
QoL (erster nach Diagnose) |
0.90 (0.10) |
0.86 (0.09) |
p=0.571 |
QoL (letzter dokumentierter) |
0.84 (0.13) |
0.82 (0.04) |
p=0.827 |
QoL (Diff) |
-0.06 (0.17) |
-0.04 (0.09) |
p= 1.000 |
Tabelle 5: Ethnisch-bedingte QoL-Analyse
Vergleichsgruppen |
hispanisch |
nicht-hispanisch |
p-Wert |
|
Mittelwert (QoL, hispanisch) ± STABW |
Mittelwert (QoL) ± STABW |
Mann-Whitney U-Tests |
QoL (erster nach Diagnose) |
0.90 (0.14) |
0.88 (0.09) |
p= 0.887 |
QoL (letzter dokumentierter) |
0.80 (0.14) |
0.84 (0.09) |
p= 0.784 |
QoL (Diff) |
-0.10 (0.28) |
-0.04 (0.09) |
p= 1.000 |
Tabelle 6: Geschlechtsspezifische QoL-Analyse
Vergleichsgruppen |
Weiblich |
Männlich |
p-Wert |
|
Mittelwert (QoL) ± STABW |
Mittelwert (QoL) ± STABW |
Mann-Whitney U-Tests |
QoL (erster nach Diagnose) |
0.87 (0.09) |
1.00 (nan) |
p= 0.257 |
QoL (letzter dokumentierter) |
0.82 (0.10) |
0.90 (nan) |
p= 0.465 |
QoL (Diff) |
-0.04 (0.13) |
-0.10 (nan) |
p= 0.719 |
Tabelle 7: Einfluss des Beziehungsstatus auf QoL
Vergleichsgruppen |
verheiratet |
single |
p-Wert |
|
Mittelwert (QoL) ± STABW |
Mittelwert (QoL) ± STABW |
Mann-Whitney U-Tests |
QoL (erster nach Diagnose) |
0.89 (0.10) |
0.85 (0.07) |
p= 0.777 |
QoL (letzter dokumentierter) |
0.81 (0.08) |
0.90 (0.14) |
p= 0.411 |
QoL (Diff) |
-0.08 (0.13) |
0.05 (0.07) |
p= 0.224 |
Tabelle 8: Einfluss von Chemotherapie auf QoL
Vergleichsgruppen |
mit Chemo |
ohne Chemo |
p-Wert |
|
Mittelwert (QoL) ± STABW |
Mittelwert (QoL) ± STABW |
Mann-Whitney U-Tests |
QoL (erster nach Diagnose) |
1.00 (nan) |
0.93 (0.12) |
p=1.000 |
QoL (letzter dokumentierter) |
0.70 (nan) |
0.80 (0.10) |
p=0.637 |
QoL (Diff) |
-0.30 (nan) |
-0.13 (0.06) |
p=0.500 |
Tabelle 9: Einfluss von zielgerichteten Therapie auf QoL
Vergleichsgruppen |
mit zielger. Therapie |
ohne zielger. Therapie |
p-Wert |
|
Mittelwert (QoL) ± STABW |
Mittelwert (QoL) ± STABW |
Mann-Whitney U-Tests |
QoL (erster nach Diagnose) |
0.93 (0.12) |
1.00 (nan) |
p=1.000 |
QoL (letzter dokumentierter) |
0.80 (0.10) |
0.70 (nan) |
p=0.637 |
QoL (Diff) |
-0.13 (0.06) |
-0.30 (nan) |
p=0.500 |
Tabelle 10: Komorbiditäten
Komorbiditäten |
N (%) |
Coronary Heart Disease |
0 |
Atrial Fibrillation |
3 (27.3) |
Cardiac Arrest |
0 |
History of cardiac arrest (situation) |
0 |
Stroke |
2 (18.2) |
Myocardial Infarction |
0 |
History of myocardial infarction (situation) |
0 |
Tabelle 11: Chemotherapien
Chemotherapien |
N (%) |
Epirubicin Hydrochloride |
2 (18.2) |
Cyclophosphamide |
1 (9.1) |
Paclitaxel |
3 (27.3) |
Tabelle 12: Zielgerichtete Tumortherapien
Therapie |
N (%) |
Anastrozole (AI) |
1 (9.1) |
Trastuzumab (anti-HER2 antibody) |
1 (9.1) |
Palbociclib (CDK4/6 inhibitor) |
1 (9.1) |
Tamoxifen (SERM) |
3 (27.3) |
Abemaciclib (CDK4/6 inhibitor) / Verzenio |
1 (9.1) |
Tabelle 13: Sonstige Medikation
Sonstige Medikation |
N (%) |
Clopidogrel |
0 (0) |
Simvastatin |
0 (0) |
Amlodipine |
0 (0) |
Nitroglycerin |
0 (0) |
Warfarin Sodium |
0 (0) |
Verapamil Hydrochloride |
0 (0) |
Digoxin |
0 (0) |
Epinephrine |
0 (0) |
Amiodarone hydrocholoride |
0 (0) |
Alteplase |
0 (0) |
Atropine Sulfate |
0 (0) |
Atorvastatin |
0 (0) |
Captopril |
0 (0) |
Abbildungen
