Achtung, Bots: Was ist Web Scraping bzw. Screen Scraping?
Letzte Aktualisierung am 30 März 2023 um 12:24 pm
In diesem Artikel geht es um das automatisierte Abgreifen von Daten aus dem Internet durch Bots. Wir beschreiben, wo Web Scraping zum Einsatz kommt und wie es sich einschränken und verhindern lässt.
Was ist Web Scraping?
Wie so oft im Marketing und in der IT gibt es mehrere Begriffe für die gleiche Sache: Das systematische Sammeln von Daten im Internet heißt Web Scraping (Abschürfen des Netzes), Web Harvesting (Ernten im Netz) oder auch Screen Scraping (Bildschirm-Schürfen).
In der Regel geschieht Web Scraping durch Robots oder kurz Bots, also Computerprogramme oder virtuelle Maschinen. Prinzipiell ist diese Datensammlung manuell möglich, was jedoch ziemlich lange dauert und nur in Einzelfällen eingesetzt wird.
Aus den beim Scraping gewonnenen Roh-Daten wird mittels Data-Mining oder WebMining das benötigte Wissen extrahiert, wobei der Begriff Data-Mining gelegentlich auch in ungenauer Weise für das Sammeln der Daten an sich eingesetzt wird.
Wie funktioniert Web Scraping?
Beim Schürfen der Daten im Netz kommt spezielle Web Scraping Software zum Einsatz. In den meisten Fällen wird diese Aufgabe des Web Harvesting Experten überlassen. Spezialisierte Agenturen setzen ihre Web-Crawler ein, um nach den Vorgaben der Kunden durch das World Wide Web zu „krabbeln“ und Daten zu sammeln, die anschließend einer genauen Analyse unterzogen werden.
Neben den Crawlern gibt es noch weitere technische Möglichkeiten, mit denen Profis das Internet abgrasen. Experten, die ihre Dienste im Bereich Web Scraping anbieten, kennen die Programmiersprachen Python und Perl oder nutzen ein HTTP-Request. Diese genauen technischen Verfahren wollen wir in diesem Artikel nicht behandeln. Vielmehr wollen wir Laien ein grundlegendes Verständnis von Web Scraping vermitteln.
Anwendungsgebiete von Screen Scraping
Web Scraping wird mit guten, lästigen oder schlichtweg bösen Absichten eingesetzt. Wir stellen einige der Einsatzgebiete vor, wobei die Liste sicherlich nicht vollständig ist.
Nützliches Web Scraping oder Web Harvesting
Suchmaschinen
Der vielleicht wichtigste nützliche Zweck des Screen Scraping ist das Crawlen der Suchmaschinen, allen voran Google. Sinnbildlich können Sie sich vorstellen, dass die kleinen Roboter von Google & Co von früh bis spät durch das Netz krabbeln. Jeder Web Scraper Bot hat einen bestimmten Auftrag, welche Informationen er von den Webseiten abgreifen soll.
Die gesammelten Daten kommen bei den Suchmaschinen in ein riesiges Verzeichnis und werden ständig aktualisiert. Die Informationen sind mittels Data Mining so aufbereitet, dass sie in Sekundenschnelle abrufbar sind.
Unternehmen haben ein großes Interesse, dass die Bots ihre Webseiten besuchen, da durch die Verzeichnisse der Search Engines organischer (also nicht bezahlter) Traffic generiert wird. Websites werden extra maschinenfreundlich gebaut und auch beim SEO wird speziell an die Bots gedacht.
Vergleichsportale
Portale zum Preisvergleich von Hotels, Flügen, Stromanbietern oder Elektroartikeln nutzen ebenfalls Screen Scraping oder Web Scraping, um zu ihren Daten zu gelangen. Doch leider können sich die Nutzenden der Portale nicht darauf verlassen, dass die obersten Einträge durch Web Scraping erlangt wurden und wirklich die günstigste Variante darstellen. Ähnlich wie bei Suchmaschinen erfolgen bezahlte Einträge auf den besten Plätzen, was für die User nicht immer ersichtlich ist.
Scraping zur Wissenschaftlichen Nutzung
Ein weiterer nützlicher Bereich von Web Scraping ist die Forschung. Heutzutage ist es gang und gäbe, dass Universitäten und Hochschulen Web Harvesting im Rahmen von empirischer Forschung einsetzen. Datenbanken und andere Webseiten werden systematischausgewertet und die Ergebnisse einer wissenschaftlichen Analyse unterzogen. Vorsicht ist geboten, wenn die Ergebnisse veröffentlicht werden sollen, weil Urheberrechte und andere Einschränkungen berücksichtigt werden müssen.
Lästiges Web Scraping durch die Mitbewerber
Die Konkurrenz schläft nicht – und vielleicht hat sie gerade einen Bot losgeschickt, der Ihre Website abgrast. Wenn es nur um eine einzige Seite oder nur um Ihre Website ginge, dann könnte der Mitbewerber natürlich direkt die gewünschte Website anklicken.
Wenn es aber um Hunderte oder Tausende von Seiten geht, sieht die Sache schon anders aus. In diesem Fall kommt das automatisierte Web Scraping durch Bots zum Einsatz.
Daten, die für die Konkurrenz von Interesse sind
Folgende Daten auf Ihrer Website könnten für Web Scraper (und ImageScraper) der Konkurrenz von Interesse sein:
- Produktlisten
- Produktbeschreibungen
- Fotos von Produkten
- Blog-Content zu SEO-relevanten Themen – SEO Copywriting
- Preislisten
- Namen von Firmen, mit denen Sie zusammen arbeiten
- Die Namen Ihrer Mitarbeitenden und deren Funktionen
- E-Mail-Adressen und Telefonnummern
- Struktur einer Website und Verlinkungen
Falls Sie jetzt denken „was ist denn daran so bemerkenswert, ich habe mir die Seiten der Mitbewerber ja ebenfalls angesehen“ haben Sie das Ausmaß des Scraping noch nicht erfasst.
Web Scraper können die Daten aller Mitbewerber in kurzer Zeit auslesen, das sind enorme Mengen von Daten. Nach entsprechender Aufbereitung steht ein umfassendes Bild der Konkurrenz zur Verfügung. Mit diesen Informationen lässt sich Einiges anstellen.
Nutzung von Daten aus Web Scraping
Verschiedene Nutzungen durch die Konkurrenz sind vorstellbar:
- Um eine Website zu erstellen werden kopierteInhalte benutzt, um sich Arbeit zu sparen.
- Content wird gescrapet, um aus den Texten suchmaschinenrelevanten Inhalt zu kopieren. Achtung, wenn Sie Pech haben, werden Sie als originiärer Content-Anbieter selbst als Kopierer hingestellt und von den Suchmaschinen für „DuplicateContent“ abgestraft und
- Beim sogenannten Preis-Grabbing wird der Preis der Mitbewerber unterboten
- B2B-Kontakte werden übernommen
- Beauftragte Headhunter werben Ihr Personal ab
- E-Mail-Adressen werden für Werbung genutzt
- Firmen-Telefonnummern werden für Robo-Calls und Kaltaquise verwendet
Web Scraping mit böser Absicht
Die Grenze zwischen lästig und böse ist fließend, wie so oft im Leben. Böse ist es auf jeden Fall, wenn Ihr Mitbewerber Ihre Website oder Ihr Unternehmen vorsätzlichschaden möchte. Außerdem ist es böse, wenn eine betrügerische oder andere kriminelle Absicht verfolgt wird.
Bedenken Sie, dass die im folgenden exemplarisch genannten Handlungen beim Scraping in einer massenhaften Weise erfolgen und riesigen Schaden anrichten.
- Bewusstes Verlängern der Ladezeit bei Mitbewerbern bis hin zu DOS-Attacken, eine Domain gänzlich zum Erliegen bringen
- Ausfüllen von Kontakt-Formularen, um Phishing-URLs und sonstigen Spam zu verschicken
- Auslesen von E-Mail-Adressen zum Weiterverkauf an Spam-Listen oder zum direkten Versenden von Spam
- Auslesen und Verkauf von Telefonnummern an betrügerische Unternehmen
- Ausspähen von E-Mail-Adressen zum Versenden von Schadsoftware wie Spionage-Trojanern oder Ransomware
Dürfen die das? – Die Legalität von Web Scrapern
Im Grunde ist Webscraping legal, sofern es nicht einer kriminellen Absicht dient. Die Inhalte auf Websites stehen ja der Öffentlichkeit explizit zur Verfügung. Somit ist es in Ordnung, Inhalte maschinell auszulesen lassen und für den persönlichen Gebrauch aufzubereiten.
Sollten auf einer Website entsprechende technische Sperren errichtet sein, dürfen diese nicht umgangen werden. Auch sind Verstöße gegen das Urheberrecht illegal, man darf nicht ganze Websites oder Teile davon kopieren, auch keine Fotos.
Social Media Scraping
Eine Form von Web Scraping, die Ihnen vielleicht nicht sofort in den Sinn kommt, ist das Social Media Scraping. Natürlich können Bots auch die Inhalte von Facebook, Twitter, Instagram und Co. auslesen. Von den Anbietern ist das sogar erwünscht, denn alles was mehr Engagement und mehr Traffic erzeugt, wird positiv gesehen. Schließlich werden die Daten benötigt, um sie an Werbeanbieter zu verkaufen.
Falls Sie das nicht betrifft, weil sie bei Facebook und Co. keine verfänglichen Daten posten, wie sieht es dann mit beruflichen Netzwerken wie Xing oder LinkedIn aus? Auch in diesen findet ScreenScraping statt, obwohl die Anbieter versuchen, es möglichst zu verhindern.
Darüber hinaus gibt es in den sozialen Medien neben dem Ausspähen der Daten das Problem, dass Chatbots dort wie Menschen agieren, ohne dass es auffällt.
Web Scraping verhindern
Es gibt mehr oder weniger hilfreiche Methoden, um Web Scraping zu verhindern. Einige davon wollen wir hier vorstellen.
Verbieten oder Einschränken durch die robots.txt
Wer eine Website baut, fügt üblicherweise die Datei „robots.txt“ hinzu. Das ist eine einfache Text-Datei, in der die Anweisungen für Bots stehen. Aufgrund des Robots-Exclusion-Standard-Protokolls, das einen gewissen Ehrenkodex darstellt, lesen seriöse Scraping-Programme immer zuerst diese Datei und befolgen die Anweisungen darin.
In der robots.txt kann bestimmten Bots untersagt werden, die Website aufzurufen. Desweiteren gibt es den Befehl, Links nicht aufzurufen („nofollow„) oder die Seite nicht in ein Verzeichnis aufzunehmen („noindex„). Es gibt einen Hinweis, die Website nicht in Archive aufzunehmen („noarchive„). Ein wichtiges Element in der robots.txt ist der Hinweis auf die URL der Sitemap, die den Bots die Arbeit erleichtert.
Diese Methode funktioniert leider nur bei den „guten“ Bots. Wer beim Web Scraping böse Absichten hegt, wird die Anweisungen in der robots.txt sicher nicht befolgen.
Bots überlisten durch Captcha und Co.
Captchas sind Tests, bei denen ein Mensch einem Bot überlegen ist. Es muss ein Wort eingegeben oder mehrere Bilder erkannt werden. Auch Rechenaufgaben sind gerne gesehen. Wenn der Bot den Text nicht besteht, kann er keinen Spam und keine Malware einbringen.
Captchas werden überall dort eingesetzt, wo eine Website Eingabefelder hat, also beispielsweise in Gästebüchern, Kontaktformularen und Kommentarfeldern. Leider scheitern auch Menschen oft an den Capchas, was das Nutzererlebnis schmälert und zu Seitenabbrüchen führt.
Sollten Sie in diesem Bereich bei Ihrer Website Probleme festgestellt haben, hilft Ihnen eine Agentur für Web Usability weiter. Diese Agenturen sind darauf spezialisiert, dass Menschen sich auf Ihrer Seite wohlfühlen. Sie haben aber auch das technische Know-How, um Bots in ihre Schranken zu verweisen.
Honeypot-Felder
Eine weitere Möglichkeit ist die Verwendung von verstecktenFeldern, die für Menschen nicht sichtbar sind. So wie der Honig den Bären anlockt, können die Bots die Honeypot-Felder nicht ignorieren. Diese Felder fordern zu bestimmten Eingaben wie etwa einer URL auf. Normalerweise folgt der Bot dieser Aufforderung und verrät sich unter anderem dadurch als virtuelle Maschine, die dann blockiert wird.
IP-Adressen sperren
Adressen von Spammern können direkt gesperrt werden, so dass diese Ihre Seite gar nicht aufrufen können. Natürlich kennen Sie als Unternehmen nicht die IP-Adressen von allen möglichen Spammern und können diese Option nicht ohne Weiteres umsetzen. Hier kommen bestimmte Dienste und Plugins ins Spiel, die eine Blacklist führen und dafür sorgen, dass zumindest ein Teil der unerwünschten Gäste ausbleibt.
Bilder und CSS nutzen
Sensible Daten wie E-Mail-Adressen und Telefonnummern können als Bild dargestellt werden. Dieses kann ein Bot nicht auslesen, leider aber auch nicht ein Screen-Reader, der die Texte auf Computerbildschirmen vorliest. Somit ist diese Lösung nicht barrierefrei und die Verwendung von Bildern sollte überdacht werden. Besser ist eine Darstellung mittels CSS, die ebenfalls sicher vor Bots ist.
Web Scraping betrifft uns alle
Möglicherweise schauen Sie Ihre Website vor diesem Hintergrund mit neuem Blick an, weil Sie etwas Neues gelernt haben. Vielleicht stellen Sie fest, dass manche Inhalte zu sensibel sind, als dass sie Web Scrapern offen zur Verfügung gestellt werden sollten.
Die Gefahr, dass Ihr originärer Seiteninhalt als Duplicate Content deklariert wird, war Ihnen womöglich zuvor nicht bewusst. Vielleicht überlegen Sie auch, sich selbst das Web Scraping zu Nutze zu machen. In jedem Fall freuen wir uns, dass wir Ihnen mit unserem Artikel das Thema Web-Scraping etwas näher bringen konnten.