3. Termin (06.05.2022) - DlieBG/tagesschau_dashboard GitHub Wiki

Überführen der Daten aus der MongoDB in die PostgresDB

  • Warum? - Performantere Datenbank, welche uns erlaubt die große Menge an Datensätzen schneller zu durchsuchen
  • Wie?
    • ER-Diagramm erstellen, um herauszufinden, welche Felder im neuen Model verfügbar sein sollen - (Nicht alle gecrawlten Informationen sind für uns verwertbar) -> ER-Diagramm
    • Translator erstellen, welcher die benötigten Felder ausliest und als neues Model in die PostgresDB überführt
    • Translator Script ins docker-compose übernehmen

Bereinigung der Daten

  • Einige Felder enthalten HTML Tags, welche entfernt werden müssen
  • In den Tags werden unterschiedliche Schreibweisen verwendet (COVID-19, Coronavirus, Corona, usw.)
  • RegionID wird meistens nicht gesetzt
    • RegionID=10 steht für NRW
    • In der SopharaID ist WDR enthalten, welche darauf hindeutet, dass die Meldung aus NRW stammt