Webentwicklung

Achtung, Bots: Was ist Web Scraping bzw. Screen Scraping?

Von Leonard Basse

Gepostet am 29 März 2021 - 7 Minuten Lesezeit
Letzte Aktualisierung am 1 April 2025 um 11:15 a.m.

5,00/5(1)

In diesem Artikel geht es um das automatisierte Abgreifen von Daten aus dem Internet durch Bots. Wir beschreiben, wo Web Scraping zum Einsatz kommt und wie es sich einschränken und verhindern lässt.

Was ist Web Scraping?

Roboter, Kawaii, Niedlich, Grafik, Inkscape, Blau, Bot

Wie so oft im Marketing und in der IT gibt es mehrere Begriffe für die gleiche Sache: Das systematische Sammeln von Daten im Internet heißt Web Scraping (Abschürfen des Netzes), Web Harvesting (Ernten im Netz) oder auch Screen Scraping (Bildschirm-Schürfen).

In der Regel geschieht Web Scraping durch Robots oder kurz Bots, also Computerprogramme oder virtuelle Maschinen. Prinzipiell ist diese Datensammlung manuell möglich, was jedoch ziemlich lange dauert und nur in Einzelfällen eingesetzt wird.

Aus den beim Scraping gewonnenen Roh-Daten wird mittels Data-Mining oder WebMining das benötigte Wissen extrahiert, wobei der Begriff Data-Mining gelegentlich auch in ungenauer Weise für das Sammeln der Daten an sich eingesetzt wird.

Wie funktioniert Web Scraping?

Beim Schürfen der Daten im Netz kommt spezielle Web Scraping Software zum Einsatz. In den meisten Fällen wird diese Aufgabe des Web Harvesting Experten überlassen. Spezialisierte Agenturen setzen ihre Web-Crawler ein, um nach den Vorgaben der Kunden durch das World Wide Web zu „krabbeln“ und Daten zu sammeln, die anschließend einer genauen Analyse unterzogen werden.

Neben den Crawlern gibt es noch weitere technische Möglichkeiten, mit denen Profis das Internet abgrasen. Experten, die ihre Dienste im Bereich Web Scraping anbieten, kennen die Programmiersprachen Python und Perl oder nutzen ein HTTP-Request. Diese genauen technischen Verfahren wollen wir in diesem Artikel nicht behandeln. Vielmehr wollen wir Laien ein grundlegendes Verständnis von Web Scraping vermitteln.

Anwendungsgebiete von Screen Scraping

Web Scraping wird mit guten, lästigen oder schlichtweg bösen Absichten eingesetzt. Wir stellen einige der Einsatzgebiete vor, wobei die Liste sicherlich nicht vollständig ist.

Nützliches Web Scraping oder Web Harvesting

Suchmaschinen

Der vielleicht wichtigste nützliche Zweck des Screen Scraping ist das Crawlen der Suchmaschinen, allen voran Google. Sinnbildlich können Sie sich vorstellen, dass die kleinen Roboter von Google & Co von früh bis spät durch das Netz krabbeln. Jeder Web Scraper Bot hat einen bestimmten Auftrag, welche Informationen er von den Webseiten abgreifen soll.

Die gesammelten Daten kommen bei den Suchmaschinen in ein riesiges Verzeichnis und werden ständig aktualisiert. Die Informationen sind mittels Data Mining so aufbereitet, dass sie in Sekundenschnelle abrufbar sind.

Unternehmen haben ein großes Interesse, dass die Bots ihre Webseiten besuchen, da durch die Verzeichnisse der Search Engines organischer (also nicht bezahlter) Traffic generiert wird. Websites werden extra maschinenfreundlich gebaut und auch beim SEO wird speziell an die Bots gedacht.

Vergleichsportale

Portale zum Preisvergleich von Hotels, Flügen, Stromanbietern oder Elektroartikeln nutzen ebenfalls Screen Scraping oder Web Scraping, um zu ihren Daten zu gelangen. Doch leider können sich die Nutzenden der Portale nicht darauf verlassen, dass die obersten Einträge durch Web Scraping erlangt wurden und wirklich die günstigste Variante darstellen. Ähnlich wie bei Suchmaschinen erfolgen bezahlte Einträge auf den besten Plätzen, was für die User nicht immer ersichtlich ist.

Scraping zur Wissenschaftlichen Nutzung

Ein weiterer nützlicher Bereich von Web Scraping ist die Forschung. Heutzutage ist es gang und gäbe, dass Universitäten und Hochschulen Web Harvesting im Rahmen von empirischer Forschung einsetzen. Datenbanken und andere Webseiten werden systematischausgewertet und die Ergebnisse einer wissenschaftlichen Analyse unterzogen. Vorsicht ist geboten, wenn die Ergebnisse veröffentlicht werden sollen, weil Urheberrechte und andere Einschränkungen berücksichtigt werden müssen.

Lästiges Web Scraping durch die Mitbewerber

Die Konkurrenz schläft nicht – und vielleicht hat sie gerade einen Bot losgeschickt, der Ihre Website abgrast. Wenn es nur um eine einzige Seite oder nur um Ihre Website ginge, dann könnte der Mitbewerber natürlich direkt die gewünschte Website anklicken.

Wenn es aber um Hunderte oder Tausende von Seiten geht, sieht die Sache schon anders aus. In diesem Fall kommt das automatisierte Web Scraping durch Bots zum Einsatz.

Daten, die für die Konkurrenz von Interesse sind

Folgende Daten auf Ihrer Website könnten für Web Scraper (und ImageScraper) der Konkurrenz von Interesse sein:

Produktlisten
Produktbeschreibungen
Fotos von Produkten
Blog-Content zu SEO-relevanten Themen – SEO Copywriting
Preislisten
Namen von Firmen, mit denen Sie zusammen arbeiten
Die Namen Ihrer Mitarbeitenden und deren Funktionen
E-Mail-Adressen und Telefonnummern
Struktur einer Website und Verlinkungen

Falls Sie jetzt denken „was ist denn daran so bemerkenswert, ich habe mir die Seiten der Mitbewerber ja ebenfalls angesehen“ haben Sie das Ausmaß des Scraping noch nicht erfasst.

Web Scraper können die Daten aller Mitbewerber in kurzer Zeit auslesen, das sind enorme Mengen von Daten. Nach entsprechender Aufbereitung steht ein umfassendes Bild der Konkurrenz zur Verfügung. Mit diesen Informationen lässt sich Einiges anstellen.

Nutzung von Daten aus Web Scraping

Verschiedene Nutzungen durch die Konkurrenz sind vorstellbar:

Um eine Website zu erstellen werden kopierteInhalte benutzt, um sich Arbeit zu sparen.
Content wird gescrapet, um aus den Texten suchmaschinenrelevanten Inhalt zu kopieren. Achtung, wenn Sie Pech haben, werden Sie als originiärer Content-Anbieter selbst als Kopierer hingestellt und von den Suchmaschinen für „DuplicateContent“ abgestraft und
Beim sogenannten Preis-Grabbing wird der Preis der Mitbewerber unterboten
B2B-Kontakte werden übernommen
Beauftragte Headhunter werben Ihr Personal ab
E-Mail-Adressen werden für Werbung genutzt
Firmen-Telefonnummern werden für Robo-Calls und Kaltaquise verwendet

Web Scraping mit böser Absicht

Die Grenze zwischen lästig und böse ist fließend, wie so oft im Leben. Böse ist es auf jeden Fall, wenn Ihr Mitbewerber Ihre Website oder Ihr Unternehmen vorsätzlichschaden möchte. Außerdem ist es böse, wenn eine betrügerische oder andere kriminelle Absicht verfolgt wird.

Bedenken Sie, dass die im folgenden exemplarisch genannten Handlungen beim Scraping in einer massenhaften Weise erfolgen und riesigen Schaden anrichten.

Bewusstes Verlängern der Ladezeit bei Mitbewerbern bis hin zu DOS-Attacken, eine Domain gänzlich zum Erliegen bringen
Ausfüllen von Kontakt-Formularen, um Phishing-URLs und sonstigen Spam zu verschicken
Auslesen von E-Mail-Adressen zum Weiterverkauf an Spam-Listen oder zum direkten Versenden von Spam
Auslesen und Verkauf von Telefonnummern an betrügerische Unternehmen
Ausspähen von E-Mail-Adressen zum Versenden von Schadsoftware wie Spionage-Trojanern oder Ransomware

Dürfen die das? – Die Legalität von Web Scrapern

Im Grunde ist Webscraping legal, sofern es nicht einer kriminellen Absicht dient. Die Inhalte auf Websites stehen ja der Öffentlichkeit explizit zur Verfügung. Somit ist es in Ordnung, Inhalte maschinell auszulesen lassen und für den persönlichen Gebrauch aufzubereiten.

Sollten auf einer Website entsprechende technische Sperren errichtet sein, dürfen diese nicht umgangen werden. Auch sind Verstöße gegen das Urheberrecht illegal, man darf nicht ganze Websites oder Teile davon kopieren, auch keine Fotos.

Social Media Scraping

Eine Form von Web Scraping, die Ihnen vielleicht nicht sofort in den Sinn kommt, ist das Social Media Scraping. Natürlich können Bots auch die Inhalte von Facebook, Twitter, Instagram und Co. auslesen. Von den Anbietern ist das sogar erwünscht, denn alles was mehr Engagement und mehr Traffic erzeugt, wird positiv gesehen. Schließlich werden die Daten benötigt, um sie an Werbeanbieter zu verkaufen.

Falls Sie das nicht betrifft, weil sie bei Facebook und Co. keine verfänglichen Daten posten, wie sieht es dann mit beruflichen Netzwerken wie Xing oder LinkedIn aus? Auch in diesen findet ScreenScraping statt, obwohl die Anbieter versuchen, es möglichst zu verhindern.

Darüber hinaus gibt es in den sozialen Medien neben dem Ausspähen der Daten das Problem, dass Chatbots dort wie Menschen agieren, ohne dass es auffällt.

Web Scraping verhindern

Es gibt mehr oder weniger hilfreiche Methoden, um Web Scraping zu verhindern. Einige davon wollen wir hier vorstellen.

Verbieten oder Einschränken durch die robots.txt

Wer eine Website baut, fügt üblicherweise die Datei „robots.txt“ hinzu. Das ist eine einfache Text-Datei, in der die Anweisungen für Bots stehen. Aufgrund des Robots-Exclusion-Standard-Protokolls, das einen gewissen Ehrenkodex darstellt, lesen seriöse Scraping-Programme immer zuerst diese Datei und befolgen die Anweisungen darin.

In der robots.txt kann bestimmten Bots untersagt werden, die Website aufzurufen. Desweiteren gibt es den Befehl, Links nicht aufzurufen („nofollow„) oder die Seite nicht in ein Verzeichnis aufzunehmen („noindex„). Es gibt einen Hinweis, die Website nicht in Archive aufzunehmen („noarchive„). Ein wichtiges Element in der robots.txt ist der Hinweis auf die URL der Sitemap, die den Bots die Arbeit erleichtert.

Diese Methode funktioniert leider nur bei den „guten“ Bots. Wer beim Web Scraping böse Absichten hegt, wird die Anweisungen in der robots.txt sicher nicht befolgen.

Bots überlisten durch Captcha und Co.

Captchas sind Tests, bei denen ein Mensch einem Bot überlegen ist. Es muss ein Wort eingegeben oder mehrere Bilder erkannt werden. Auch Rechenaufgaben sind gerne gesehen. Wenn der Bot den Text nicht besteht, kann er keinen Spam und keine Malware einbringen.

Captchas werden überall dort eingesetzt, wo eine Website Eingabefelder hat, also beispielsweise in Gästebüchern, Kontaktformularen und Kommentarfeldern. Leider scheitern auch Menschen oft an den Capchas, was das Nutzererlebnis schmälert und zu Seitenabbrüchen führt.

Sollten Sie in diesem Bereich bei Ihrer Website Probleme festgestellt haben, hilft Ihnen eine Agentur für Web Usability weiter. Diese Agenturen sind darauf spezialisiert, dass Menschen sich auf Ihrer Seite wohlfühlen. Sie haben aber auch das technische Know-How, um Bots in ihre Schranken zu verweisen.

Honeypot-Felder

Eine weitere Möglichkeit ist die Verwendung von verstecktenFeldern, die für Menschen nicht sichtbar sind. So wie der Honig den Bären anlockt, können die Bots die Honeypot-Felder nicht ignorieren. Diese Felder fordern zu bestimmten Eingaben wie etwa einer URL auf. Normalerweise folgt der Bot dieser Aufforderung und verrät sich unter anderem dadurch als virtuelle Maschine, die dann blockiert wird.

IP-Adressen sperren

Adressen von Spammern können direkt gesperrt werden, so dass diese Ihre Seite gar nicht aufrufen können. Natürlich kennen Sie als Unternehmen nicht die IP-Adressen von allen möglichen Spammern und können diese Option nicht ohne Weiteres umsetzen. Hier kommen bestimmte Dienste und Plugins ins Spiel, die eine Blacklist führen und dafür sorgen, dass zumindest ein Teil der unerwünschten Gäste ausbleibt.

Bilder und CSS nutzen

Sensible Daten wie E-Mail-Adressen und Telefonnummern können als Bild dargestellt werden. Dieses kann ein Bot nicht auslesen, leider aber auch nicht ein Screen-Reader, der die Texte auf Computerbildschirmen vorliest. Somit ist diese Lösung nicht barrierefrei und die Verwendung von Bildern sollte überdacht werden. Besser ist eine Darstellung mittels CSS, die ebenfalls sicher vor Bots ist.

Web Scraping betrifft uns alle

Möglicherweise schauen Sie Ihre Website vor diesem Hintergrund mit neuem Blick an, weil Sie etwas Neues gelernt haben. Vielleicht stellen Sie fest, dass manche Inhalte zu sensibel sind, als dass sie Web Scrapern offen zur Verfügung gestellt werden sollten.

Die Gefahr, dass Ihr originärer Seiteninhalt als Duplicate Content deklariert wird, war Ihnen womöglich zuvor nicht bewusst. Vielleicht überlegen Sie auch, sich selbst das Web Scraping zu Nutze zu machen. In jedem Fall freuen wir uns, dass wir Ihnen mit unserem Artikel das Thema Web-Scraping etwas näher bringen konnten.

Leonard Basse

Lenni is someone we would typically call « the cool kid », of the content team. Passionate by nature & surf, when he is not riding his bike, you will find him behind his computer writing about his other passion: marketing!

Ich suche nach:

Am meisten gesucht:

Künstliche Intelligenz Agenturen
Machine Learning Agenturen
AI Marketing Agenturen
Chatbot Entwicklung Agenturen
Virtueller Assistent Agenturen
Videoproduktion Agenturen Berlin
Branding Agenturen
Markenstrategie Agenturen
Online Branding Agenturen
Markenpositionierung Agenturen
Brand Design Agenturen
Employer Branding Agenturen
B2B Branding Agenturen
Corporate Branding Agenturen
Internationales Branding Agenturen
Content Marketing Agenturen
Content Marketing Berlin
Content Marketing München
Top Blogging Strategie Agenturen
Top Storytelling Agenturen
Videoproduktion Agenturen Berlin
Digitalstrategie Agenturen
Digitalstrategie Agenturen in München
Digitalstrategie Agenturen in Berlin
Top Digitale Innovation Agenturen
Digitale Transformation Agenturen
Top Online Marketing Agenturen
E Commerce Agenturen
E Commerce Agenturen Köln
E Commerce Agenturen Berlin
E Commerce Agenturen Frankfurt
E Commerce Agenturen Hamburg
E Commerce Agenturen München
E-Mail Marketing Agenturen
E-Mail Marketing Agenturen München
E-Mail Marketing Agenturen Hamburg
Eventagenturen
Eventagenturen Köln
Eventagenturen München
Eventagenturen Berlin
Eventagenturen Frankfurt
Eventagenturen Hamburg
Eventagenturen Stuttgart
Eventagenturen Düsseldorf
Eventagenturen Leipzig
Design Agenturen
Design Agentur München
Design Agenturen Hamburg
Design Agenturen Berlin
Design Agenturen Düsseldorf
Design Agenturen Stuttgart
Design Agenturen Frankfurt
Design Agenturen Köln
Medienagenturen
Medienagenturen Hamburg
Medienagenturen Berlin
Medienagenturen Düsseldorf
Medienagenturen München
Medienagenturen Stuttgart
App Entwicklung Agenturen
App Entwicklung Köln
App Entwicklung München
App Entwicklung Hamburg
App Entwicklung Agenturen
App Entwicklung Köln
App Entwicklung München
App Entwicklung Hamburg
Software Entwicklung Agenturen
Werbeagenturen
Werbeagenturen Berlin
Werbeagenturen München
Werbeagenturen Hamburg
Google Adwords Agenturen
SEA Agenturen Berlin
Performance Marketing Agenturen
Google Adwords Agenturen Berlin
Google Analytics Agenturen München
Bing Advertising Agenturen
PR Agenturen
PR Agenturen Hamburg
PR Agenturen München
PR Agenturen Berlin
PR Agenturen Düsseldorf
PR Agenturen Frankfurt
PR Agenturen Stuttgart
PR Agenturen Köln
SEA Agenturen
Online Werbung Agentur
Online Werbung Berlin
Google Ads Agenturen
SEO Agenturen
SEO München
SEO Berlin
SEO Hamburg
Local SEO Agenturen
Amazon SEO Agenturen
Mobile SEO Agenturen
On-page SEO Agenturen
Linkbuilding Agenturen
Social Media Agenturen
Social Media Agenturen Berlin
Social Media Agenturen München
Social Media Agenturen Hamburg
Influencer Marketing Agenturen Berlin
Tiktok Agenturen München
Instagram Marketing Agenturen München
Facebook Marketing Agenturen München
Social Media Listening Agenturen
Xing Ads Agenturen Berlin
Internetagenturen
Internetagenturen München
Internetagenturen Hamburg
Internetagenturen Frankfurt
Internetagenturen Düsseldorf
Internetagenturen Berlin
Webdesign Agenturen
Webdesign Berlin
Webdesign Hamburg
Webdesign München
Webdesign Düsseldorf
Webdesign Frankfurt
Produktdesign Agenturen Berlin
Wordpress Webdesign Agenturen
Website Optimization Agenturen

Diesen Artikel teilen auf :

5,00/5(1)

Andere Artikel, die Sie interessieren könnten

Künstliche Intelligenz Ergonomie (UX/UI) E-Commerce-Software Mobile & App-Entwicklung Tools zur Website-Erstellung

Webseite, Website, Homepage: wo ist da der Unterschied?

Unterschied zwischen Website, Webseite & Homepage

12 Januar 2021 ∙ 4 Minuten Lesezeit

Bei diesen drei Begriffen kommt bei Ihnen wahrscheinlich die Frage auf: Gibt es hier überhaupt Unterschiede? Es gibt sie natürlich und wir fassen Ihnen hier die Besonderheiten zu Webseite, Website und Homepage kurz zusammen. Was zeichnet eine Homepage aus? Der Begriff Homepage wird häufig von Personen verwendet, die sich noch nicht so gut bei der […]

Entwicklung & Produkt

Mobile first: Ihre SEO hängt davon ab

20 Oktober 2020 ∙ 6 Minuten Lesezeit

Entwicklungen in Webentwicklung und Webdesign hängen stark mit neuen Computertechnologien zusammen. Heute nutzen 80% der User das Internet über das Smartphone. Mobile Endgeräte sind vollständig in unser tägliches Leben integriert. Das bedeutet, dass Websites für mobile Endgeräte optimiert sein müssen, damit sie mobilen Usern das beste Nutzererlebnis bieten. Luke Wroblewski entwickelte 2009 den „Mobile First“-Ansatz, […]

Entwicklung & Produkt

Datensicherheit für Unternehmen ist an die richtigen Backup-Lösungen gebunden

Warum sind Backup-Lösungen für Unternehmen so wichtig?

8 März 2021 ∙ 7 Minuten Lesezeit

Viele Informationen und Daten werden mittlerweile rein digital erstellt. Diese Datenvolumen steigen stetig an. Ein Verlust von Daten kann da schon die Existenz von kleinen Unternehmen in Bedrängnis bringen. Datensicherung wird für viele Firmen, Agenturen und Unternehmen immer wichtiger. Wie soll die Datensicherung ablaufen, welche Software oder Hardware wird benötigt und wie wird der komplette […]

Webentwicklung

Alle Artikel anzeigen