3.2. Die Sitemap erstellen - mkappus1/DatenmanagementMTHS24 GitHub Wiki

3.2. Die Sitemap erstellen

Sitemap mit MTUOC-Skripten erstelllen

Die Sitemap ist, wie wir bereits erwähnt haben, eine Datei, die eine Reihe von internen Links einer Website enthält.


Im Kurs von Antoni Oliver wird ein Skript bereit gestellt, dass von allen möglichen Webseiten die Sitemaps erstellt, in dem es systematisch die Orte durchsucht, in denen eine Sitemap in der Regel auf einer Webseite zu finden ist. Die gefundenen Links werden dann in Listenform in einer Text-Datei gespeichert.

Leider funktioniert dieses Skript nicht für alle Webseiten. Daher habe ich eigene kleine Skripte für die Website des BAG auf Deutsch/Englisch/Italienisch erstellt, die Sie hier finden.

Hier zunächst die ursprüngliche Erklärung/Anleitung für das Skript von Antoni Oliver.

Um die Sitemap der Seite https://medlineplus.gov zu erstellen, müssen Sie nur folgenden Befehl eingeben:

`python3 MTUOC-sitemap.py -u https://medlineplus.gov`

Dadurch wird die Datei sitemap-medlineplus_gov.txt erstellt.

Bei der Sitemap-Datei müssen wir Folgendes beachten:

  • Es ist nicht immer möglich, diese Datei zu erstellen. In diesen Fällen enthält die Datei die von uns angegebene URL und in einigen Fällen das Google-Suchergebnis der internen Links zu dieser Website. Denken Sie beim späteren Herunterladen der Website mit dieser Datei daran, dass auch nach internen Links gesucht wird, so dass es möglich ist, dass der Download letztendlich dennoch erfolgreich ist.
  • Die von uns erstellte Sitemap-Datei ist eine Textdatei, die wir in einem beliebigen Texteditor öffnen und nach Belieben ändern können. Wenn Sie Links sehen, die Sie nicht herunterladen möchten, können Sie diese im Editor (z.B. nano in UNIX oder Notepad++ in der Windowsumgebung) löschen.

Übung/Aufgabe 1: Versuchen Sie mit dem Tool von Antoni Oliver (also dem heruntergeladenen Skript MTUOC-sitemap.py), Sitemaps von der Website des Instituts für Übersetzen und Dolmetschen (in mindestens zwei Sprachen) und einer anderen Website , die Sie interessiert, zu erstellen. Schauen Sie sich die Ergebnisse (die resultierenden Dateien an), schreiben Sie Ihre Beobachtungen stichwortartig auf und geben Sie die Dateien und Ihre Beobachtungen auf Moodle ab. Abgabe Aufgabe 1 auf Moodle.

Sitemap BAG

Um mehrsprachige, parallele Daten zum Thema Gesundheit in den für uns relevanten Sprachen zu erhalten, ist die Website des BAG (Bundesamt für Gesundheit) eine gute Quelle. Leider funktioniert das Skript aus der MTUOC-Sammlung nicht für die Extraktion der Links aus der Sitemap. Daher habe ich eigene kleine Skripte für die Extraktion der Sitemap der Website des BAG auf Deutsch/Englisch/Italienisch erstellt, die Sie hier finden..

In diesen Skripts sind die Adressen (URLs) der Sitemaps in denen Website-Inhalte verfügbar sind und die Namen der Ausgabedateien für die verschiedenen Sprachen, im jeweiligen Skripts "hard-codiert".

grafik

Um das Skript auf andere Webseiten anzuwenden, müssten Sie das im entsprechenden Skript mit Hilfe eines geeigneten Texteditors anpassen. Da die Webadresse im Skript direkt abgeben ist, können Sie die Skripte ohne ein Argument (also die Angabe der Webseite, die durchsucht werden soll) ausführen.

Übung/Aufgabe 2: Erstellen Sie mit den Skripts für das BAG (MeineSitemap-en.py, MeineSitemap-de.py bzw. MeineSitemap-it.py eine Sitemap für die Seiten für das BAG auf 1. Englisch und 2. auf Deutsch oder auf Italienisch. Geben Sie die Dateien unter Abgabe Aufgabe 2 auf Moodle ab.

Freiwillige Zusatzaufgabe: Passen Sie das Skript so an, dass es die Links aus einer anderen Webseite extrahiert.

Eine alternative Möglichkeit eine Liste von Webseiten zu erstellen: Link Gopher

Eine etwas einfachere Möglichkeit eine Liste von Links aus einer Webseite zu erzeugen ist die Browser-Erweiterung Link Gopher, die (mindestens) für Firefox und Google Chrome verfügbar ist. Sie extrahiert aus einer im Browser geöffneten Webseite alle Links. Die Bedienung der Erweiterung ist sehr einfach und wird in dieser Anleitung erklärt..

Übung/Aufgabe 3: Installieren Sie die Erweiterung Link Gopher. Erstellen Sie mit Hilfe der Erweiterung eine Liste von Links von der Hauptseite des IUED (in Englisch und Deutsch/Italienisch). Abgabe Aufgabe3 auf Moodle


Weiter zum Abschnitt 3.3. Herunterladen der Inhalte der Website