4. Termin (07.06.2022) - DlieBG/tagesschau_dashboard GitHub Wiki

Strategie zur Bereinigung der Daten

  • Liste mit Aliassen anlegen
  • Python-Skript erstellen
    • Tags auf eine Schreibweise abstimmen
    • RegionID korrigieren
    • Copyright -> Fotografen sind bspw. mit Unternehmen genannt
    • HTML entfernen

Verbesserung des Crawlers

  • Mehrere API Keys generiert
  • Zusätzlich Tage in der Vergangenheit abfragen

Kennzahlen

Internationale Nachrichten

  • Wo passiert gerade viel? Karte
  • Breaking News (Wichtige News werden zeitnah/gleichzeitig veröffentlicht)

Deutschland im Detail

  • Regionen:
    • Wo wurde viel veröffentlicht?
    • Welcher Sender veröffentlicht am meisten?

Deutschland im internationalen Vergleich

Metadaten Analyse

  • Copyright
  • Crawlindex
  • Crawlindex over time
  • Tags
  • RegionId -> Wer veröffentlicht wann?
  • Type
  • Breaking news
  • Inhalt
  • Länge der Artikel
  • Änderungen der Artikel -> Text ergänzt? Typos korrigiert?