Exkurs ‐ Selenium und andere Strategien für das Webscraping - mkappus1/DatenmanagementMTHS24 GitHub Wiki
Selenium ist ein Framework zur Automatisierung von Browsern. Es wird oft zum Testen von Webanwendungen eingesetzt, kann aber auch zum Scraping von Webseiten verwendet werden. Selenium ist besonders nützlich für Webseiten, die stark von JavaScript abhängig sind, da es die Seiten im Browser rendern und Inhalte, die erst nach dem Laden von Skripten erscheinen, problemlos extrahieren kann.
Anleitung Verwendung von Selenium unter WSL
Um Selenium unter WSL zu verwenden, benötigst du:
- Selenium-Python-Bibliothek
- Einen Webdriver wie chromedriver für Chrome oder geckodriver für Firefox
- Einen grafischen Browserzugriff, da WSL standardmäßig keine GUI-Unterstützung hat (X-Server wird benötigt)
Schritt-für-Schritt-Installation:
- Selenium und Webdriver installieren:
bash
pip install selenium
Lade dann chromedriver oder geckodriver herunter, je nachdem, welchen Browser du verwenden möchtest, und verschiebe die Datei in ein Verzeichnis, das im PATH enthalten ist (z. B. /usr/local/bin).
-
X-Server installieren: Da WSL keinen nativen Zugriff auf eine grafische Oberfläche hat, musst du einen X-Server installieren, um die Browser-Fenster von WSL aus anzuzeigen.
X-Server: Installiere einen X-Server auf Windows wie Xming oder VcXsrv. Starte den X-Server auf Windows und setze die Umgebungsvariable DISPLAY in WSL:
bash
`export DISPLAY=:0`
Damit kann WSL die Grafikausgabe an den X-Server schicken.
- Browser installieren: Installiere einen Linux-Browser (z. B. Firefox oder Chrome) in WSL:
bash
sudo apt update
sudo apt install firefox
Falls du Chrome verwenden möchtest, lade das .deb-Paket von der offiziellen Seite herunter und installiere es mit:
bash
sudo dpkg -i google-chrome-stable_current_amd64.deb