Systemumgebung - Fuenfgeld/DMA2022DataProjectB GitHub Wiki

Datenverwaltung

Die Daten werden in Google Drive im Ordner Brustkrebs Daten festgehalten und sind öffentlich nicht zugänglich. Die Daten sind die Datengrundlage für das Datenmodell vorzufinden. Weitere Informationen zur Datenstruktur finden sich auf der Seite Modell der Brustkrebsdaten

Codeverwaltung

Der implementierte Code wird zentral auf dem Github-Repositorium DMA2022PojectB verwaltet und ist öffentlich zugänglich. Die Ordnerstruktur unterteilt sich in einen zentralen Ordner Testing zur Versionierungsverwaltung von automatisierten Unittest, implementiert in der Programmiersprache Python. Weiterhin findet sich in dem Ordner Datenschema der zentrale Ablageort für das ER-Diagramm der Datenbank BreastCancer, realisiert durch ein Sqlite DBMS.

Programmiersprachen

Zu den verwendeten Programmiersprachen gehört zum eine Python in der Version 3.8.10. Weiterhin wird zu Datenanalyse ein Jupyter Notebook implementiert. Für die Initialisierung des Projektes, lokal auf dem Rechner, wurde ein Shellskript entworfen.

Systeminitialisierung

1. Cloud Deployment

Um die Datenanalyse durchzuführen kann die Datei Analysis.ipynb manuell ausgeführt werden. Dies führt zu einer automatisierten Installierung aller benögtigten Softwareabhängigkeite wozu auch die Initialisierung der Sqlite Datenbank Breast Cancer und der zugehörigen Dateninhalte gehört. Das erstellte Datenmodell ist unter der Wiki-Seite Brustkrebsdatenmodell vorzufinden.

2. Lokales Deployment

Um das Projekt lokal zu Initialisieren wird empfohlen einen Ordner lokal zu erstellen der beispielhaft den Namen DMA2022DataProjectB trägt. In diesem Ordner soll dann die Datei start.sh hinzugefügt werden. Anschließend kann eine beliebige ENtwicklungsumgebung geöffnet werden und in der Linux-Konsole der Entwicklungsumgebung gestartet werden. Hierzu muss folgender Befehl ausgeführt werden ./start.sh. Zu beachten ist das der angezeigte Pfad der Konsole auf den erstellten Ordner mit der vorhandenen Shellskript Datei zeigen muss. Um dies zu überprüfen kann der Befehl ls ausgeführt werden, welcher zur Anzeige von Dateien und Unterordnern in dem aktuell befindlichen Ordner dient. Weiterhin wird vorrausgesetzt das Git als Werkzeug lokal auf dem Rechner installiert wurde, anderfalls kann dies über die offzielle Webseite heruntergeladen werden. Nach Ausführung des Befehls sollte sich die Projektstrukturs aus dem DMA2022DataProjectB lokal auf dem Rechner wiederfinden.

Abhängigkeiten

Bibliothek Version Beschreibung
Python 3.7 Programmiersprache
sqlite3 1.3.5 Datenbank
pandas 1.3.5 Datenanalyse
matplotlib 3.2.2 Visualisierung
seaborn 0.11.2 Visualisierung
scikit-learn 1.0.2 Machine Learning
kmodes 0.12.1 Clustering
plotly 5.5.0 Visualisierung