4. Termin (07.06.2022) - DlieBG/tagesschau_dashboard GitHub Wiki
Strategie zur Bereinigung der Daten
- Liste mit Aliassen anlegen
- Python-Skript erstellen
- Tags auf eine Schreibweise abstimmen
- RegionID korrigieren
- Copyright -> Fotografen sind bspw. mit Unternehmen genannt
- HTML entfernen
Verbesserung des Crawlers
- Mehrere API Keys generiert
- Zusätzlich Tage in der Vergangenheit abfragen
Kennzahlen
Internationale Nachrichten
- Wo passiert gerade viel? Karte
- Breaking News (Wichtige News werden zeitnah/gleichzeitig veröffentlicht)
Deutschland im Detail
- Regionen:
- Wo wurde viel veröffentlicht?
- Welcher Sender veröffentlicht am meisten?
Deutschland im internationalen Vergleich
Metadaten Analyse
- Copyright
- Crawlindex
- Crawlindex over time
- Tags
- RegionId -> Wer veröffentlicht wann?
- Type
- Breaking news
- Inhalt
- Länge der Artikel
- Änderungen der Artikel -> Text ergänzt? Typos korrigiert?