﻿{"id":2786,"date":"2021-03-29T12:47:41","date_gmt":"2021-03-29T10:47:41","guid":{"rendered":"https:\/\/www.sortlist.de\/blog\/?p=2786"},"modified":"2025-04-01T11:15:26","modified_gmt":"2025-04-01T09:15:26","slug":"web-scraping","status":"publish","type":"post","link":"https:\/\/www.sortlist.de\/blog\/web-scraping\/","title":{"rendered":"Achtung, Bots: Was ist Web Scraping bzw. Screen Scraping?"},"content":{"rendered":"<p>In diesem Artikel geht es um das automatisierte Abgreifen von Daten aus dem Internet durch <strong>Bots<\/strong>. Wir beschreiben, wo<strong> Web Scraping<\/strong> zum Einsatz kommt und wie es sich einschr\u00e4nken und verhindern l\u00e4sst.<\/p>\n<h2 class=\"wp-block-heading\">Was ist Web Scraping?<\/h2>\n<div class=\"wp-block-image\">\n<figure class=\"alignleft is-resized\"><img loading=\"lazy\" decoding=\"async\" src=\"https:\/\/cdn.pixabay.com\/photo\/2020\/02\/13\/02\/34\/robot-4844306_960_720.png\" alt=\"Roboter, Kawaii, Niedlich, Grafik, Inkscape, Blau, Bot\" width=\"188\" height=\"234\"\/><\/figure>\n<\/div>\n<p>Wie so oft im Marketing und in der IT gibt es mehrere Begriffe f\u00fcr die gleiche Sache: Das systematische Sammeln von Daten im Internet hei\u00dft <strong>Web Scraping<\/strong> (Absch\u00fcrfen des Netzes), <strong>Web Harvesting<\/strong> (Ernten im Netz) oder auch <strong>Screen Scraping<\/strong> (Bildschirm-Sch\u00fcrfen).<\/p>\n<p>In der Regel geschieht Web Scraping durch <strong>Robots<\/strong> oder kurz <strong>Bots<\/strong>, also Computerprogramme oder virtuelle Maschinen. Prinzipiell ist diese Datensammlung manuell m\u00f6glich, was jedoch ziemlich lange dauert und nur in Einzelf\u00e4llen eingesetzt wird.<\/p>\n<p>Aus den beim Scraping gewonnenen Roh-Daten wird mittels <strong>Data-Mining<\/strong> oder <strong>Web<\/strong> <strong>Mining<\/strong> das ben\u00f6tigte Wissen extrahiert, wobei der Begriff Data-Mining gelegentlich auch in ungenauer Weise f\u00fcr das Sammeln der Daten an sich eingesetzt wird.<\/p>\n<h2 class=\"wp-block-heading\">Wie funktioniert Web Scraping?<\/h2>\n<p>Beim Sch\u00fcrfen der Daten im Netz kommt spezielle Web Scraping Software zum Einsatz. In den meisten F\u00e4llen <a href=\"https:\/\/www.sortlist.de\/web-analytics\" target=\"_blank\" rel=\"noopener noreferrer\">wird diese Aufgabe des Web Harvesting Experten \u00fcberlassen<\/a>. Spezialisierte Agenturen setzen ihre Web-Crawler ein, um nach den Vorgaben der Kunden durch das World Wide Web zu &#8222;krabbeln&#8220; und Daten zu sammeln, die anschlie\u00dfend einer genauen Analyse unterzogen werden.<\/p>\n<p>Neben den Crawlern gibt es noch weitere technische M\u00f6glichkeiten, mit denen Profis das Internet abgrasen. Experten, die ihre Dienste im Bereich Web Scraping anbieten, kennen die Programmiersprachen Python und Perl oder nutzen ein HTTP-Request. Diese genauen technischen Verfahren wollen wir in diesem Artikel nicht behandeln. Vielmehr wollen wir Laien ein <strong>grundlegendes Verst\u00e4ndnis von Web Scraping<\/strong> vermitteln.<\/p>\n<h2 class=\"wp-block-heading\">Anwendungsgebiete von Screen Scraping<\/h2>\n<p>Web Scraping wird mit guten, l\u00e4stigen oder schlichtweg b\u00f6sen Absichten eingesetzt. Wir stellen einige der Einsatzgebiete vor, wobei die Liste sicherlich nicht vollst\u00e4ndig ist.<\/p>\n<h3 class=\"wp-block-heading\">N\u00fctzliches Web Scraping oder Web Harvesting<\/h3>\n<h4 class=\"wp-block-heading\">Suchmaschinen<\/h4>\n<p>Der vielleicht wichtigste n\u00fctzliche Zweck des Screen Scraping ist das <strong>Crawlen der Suchmaschinen<\/strong>, allen voran Google. Sinnbildlich k\u00f6nnen Sie sich vorstellen, dass die kleinen Roboter von Google &amp; Co von fr\u00fch bis sp\u00e4t durch das Netz krabbeln. Jeder Web Scraper Bot hat einen bestimmten Auftrag, welche Informationen er von den Webseiten abgreifen soll.<\/p>\n<p>Die gesammelten Daten kommen bei den Suchmaschinen in ein riesiges Verzeichnis und werden st\u00e4ndig aktualisiert. Die Informationen sind mittels Data Mining so aufbereitet, dass sie in Sekundenschnelle abrufbar sind.<\/p>\n<figure class=\"wp-block-image is-resized\"><img loading=\"lazy\" decoding=\"async\" src=\"https:\/\/cdn.pixabay.com\/photo\/2019\/03\/16\/22\/06\/sitemap-4059862_960_720.jpg\" alt=\"sammeln von daten f\u00fcr seo\" width=\"521\" height=\"330\"\/><\/figure>\n<p>Unternehmen haben ein gro\u00dfes Interesse, dass die <strong>Bots ihre Webseiten besuchen<\/strong>, da durch die Verzeichnisse der Search Engines organischer (also nicht bezahlter) Traffic generiert wird. Websites werden extra maschinenfreundlich gebaut und auch beim <a href=\"https:\/\/www.sortlist.de\/blog\/seo-agentur-finden\/\" target=\"_blank\" rel=\"noreferrer noopener\">SEO<\/a> wird speziell an die Bots gedacht.<\/p>\n<h4 class=\"wp-block-heading\">Vergleichsportale<\/h4>\n<p>Portale zum Preisvergleich von Hotels, Fl\u00fcgen, Stromanbietern oder Elektroartikeln nutzen ebenfalls Screen Scraping oder Web Scraping, um <strong>zu ihren Daten zu gelangen<\/strong>. Doch leider k\u00f6nnen sich die Nutzenden der Portale nicht darauf verlassen, dass die obersten Eintr\u00e4ge durch Web Scraping erlangt wurden und wirklich die g\u00fcnstigste Variante darstellen. \u00c4hnlich wie bei Suchmaschinen erfolgen bezahlte Eintr\u00e4ge auf den besten Pl\u00e4tzen, was f\u00fcr die User nicht immer ersichtlich ist.<\/p>\n<h4 class=\"wp-block-heading\">Scraping zur Wissenschaftlichen Nutzung<\/h4>\n<p>Ein weiterer n\u00fctzlicher Bereich von Web Scraping ist die <strong>Forschung<\/strong>. Heutzutage ist es gang und g\u00e4be, dass Universit\u00e4ten und Hochschulen Web Harvesting im Rahmen von empirischer Forschung einsetzen. Datenbanken und andere Webseiten werden <strong>systematisch<\/strong> <strong>ausgewertet<\/strong> und die Ergebnisse einer wissenschaftlichen Analyse unterzogen. Vorsicht ist geboten, wenn die Ergebnisse ver\u00f6ffentlicht werden sollen, weil Urheberrechte und andere Einschr\u00e4nkungen ber\u00fccksichtigt werden m\u00fcssen.<\/p>\n<h3 class=\"wp-block-heading\">L\u00e4stiges Web Scraping durch die Mitbewerber<\/h3>\n<p>Die Konkurrenz schl\u00e4ft nicht &#8211; und vielleicht hat sie gerade <strong>einen Bot losgeschickt<\/strong>, der Ihre Website abgrast. Wenn es nur um eine einzige Seite oder nur um Ihre Website ginge, dann k\u00f6nnte der Mitbewerber nat\u00fcrlich direkt die gew\u00fcnschte Website anklicken.<\/p>\n<p>Wenn es aber um Hunderte oder Tausende von Seiten geht, sieht die Sache schon anders aus. In diesem Fall kommt das <strong>automatisierte Web Scraping<\/strong> durch Bots zum Einsatz.<\/p>\n<h4 class=\"wp-block-heading\">Daten, die f\u00fcr die Konkurrenz von Interesse sind<\/h4>\n<p>Folgende Daten auf Ihrer Website k\u00f6nnten f\u00fcr Web Scraper (und <strong>Image<\/strong> <strong>Scraper<\/strong>) der Konkurrenz von Interesse sein:<\/p>\n<ul class=\"wp-block-list\">\n<li>Produktlisten<\/li>\n<li><a href=\"https:\/\/www.sortlist.de\/blog\/produktbeschreibung\/\" target=\"_blank\" rel=\"noreferrer noopener\">Produktbeschreibungen<\/a><\/li>\n<li>Fotos von Produkten<\/li>\n<li>Blog-Content zu SEO-relevanten Themen &#8211; <a href=\"https:\/\/www.sortlist.de\/s\/seo-copywriting\/deutschland-de\" target=\"_blank\" rel=\"noreferrer noopener\">SEO Copywriting<\/a><\/li>\n<li>Preislisten<\/li>\n<li>Namen von Firmen, mit denen Sie zusammen arbeiten<\/li>\n<li>Die Namen Ihrer Mitarbeitenden und deren Funktionen<\/li>\n<li>E-Mail-Adressen und Telefonnummern<\/li>\n<li><a href=\"https:\/\/www.sortlist.de\/blog\/webseitenstruktur\/\">Struktur einer Website<\/a> und Verlinkungen<\/li>\n<\/ul>\n<p>Falls Sie jetzt denken &#8222;was ist denn daran so bemerkenswert, ich habe mir die Seiten der Mitbewerber ja ebenfalls angesehen&#8220; haben Sie das <strong>Ausma\u00df des Scraping<\/strong> noch nicht erfasst.<\/p>\n<p>Web Scraper k\u00f6nnen die Daten <strong>aller <\/strong>Mitbewerber in kurzer Zeit auslesen, das sind enorme Mengen von Daten. Nach entsprechender Aufbereitung steht ein umfassendes Bild der Konkurrenz zur Verf\u00fcgung. Mit diesen Informationen l\u00e4sst sich Einiges anstellen.<\/p>\n<h4 class=\"wp-block-heading\">Nutzung von Daten aus Web Scraping<\/h4>\n<p>Verschiedene Nutzungen durch die Konkurrenz sind vorstellbar:<\/p>\n<ul class=\"wp-block-list\">\n<li>Um eine Website zu erstellen werden <strong>kopierte<\/strong> <strong>Inhalte<\/strong> benutzt, um sich Arbeit zu sparen.<\/li>\n<li>Content wird gescrapet, um aus den Texten <strong>suchmaschinenrelevanten<\/strong> Inhalt zu kopieren. Achtung, wenn Sie Pech haben, werden Sie als origini\u00e4rer Content-Anbieter selbst als Kopierer hingestellt und von den Suchmaschinen f\u00fcr &#8222;<strong>Duplicate<\/strong> <strong>Content<\/strong>&#8220; abgestraft und<\/li>\n<li>Beim sogenannten <strong>Preis-Grabbing<\/strong> wird der Preis der Mitbewerber unterboten<\/li>\n<li>B2B-Kontakte werden \u00fcbernommen<\/li>\n<li>Beauftragte <strong>Headhunter<\/strong> werben Ihr Personal ab<\/li>\n<li>E-Mail-Adressen werden f\u00fcr Werbung genutzt<\/li>\n<li>Firmen-Telefonnummern werden f\u00fcr <strong>Robo-Calls<\/strong> und <a href=\"https:\/\/www.sortlist.de\/blog\/lead-nurturing\/\" target=\"_blank\" rel=\"noreferrer noopener\">Kaltaquise<\/a> verwendet<\/li>\n<\/ul>\n<h3 class=\"wp-block-heading\">Web Scraping mit b\u00f6ser Absicht<\/h3>\n<p>Die Grenze zwischen l\u00e4stig und b\u00f6se ist flie\u00dfend, wie so oft im Leben. B\u00f6se ist es auf jeden Fall, wenn Ihr Mitbewerber Ihre Website oder Ihr Unternehmen <strong>vors\u00e4tzlich<\/strong> <strong>schaden<\/strong> m\u00f6chte. Au\u00dferdem ist es b\u00f6se, wenn eine betr\u00fcgerische oder andere kriminelle Absicht verfolgt wird.<\/p>\n<p>Bedenken Sie, dass die im folgenden exemplarisch genannten Handlungen beim Scraping in einer massenhaften Weise erfolgen und riesigen Schaden anrichten.<\/p>\n<ul class=\"wp-block-list\">\n<li>Bewusstes <strong>Verl\u00e4ngern der Ladezeit<\/strong> bei Mitbewerbern bis hin zu DOS-Attacken, eine Domain g\u00e4nzlich zum Erliegen bringen<\/li>\n<li>Ausf\u00fcllen von Kontakt-Formularen, um <strong>Phishing-URLs und sonstigen Spam<\/strong> zu verschicken<\/li>\n<li>Auslesen von E-Mail-Adressen zum <strong>Weiterverkauf an Spam-Listen<\/strong> oder zum direkten Versenden von Spam<\/li>\n<li><strong>Auslesen und Verkauf von Telefonnummern<\/strong> an betr\u00fcgerische Unternehmen<\/li>\n<li>Aussp\u00e4hen von E-Mail-Adressen zum <strong>Versenden von Schadsoftware<\/strong> wie Spionage-Trojanern oder Ransomware<\/li>\n<\/ul>\n<h3 class=\"wp-block-heading\">D\u00fcrfen die das? &#8211; Die Legalit\u00e4t von Web Scrapern<\/h3>\n<p>Im Grunde ist Webscraping legal, sofern es nicht einer kriminellen Absicht dient. Die Inhalte auf Websites stehen ja der \u00d6ffentlichkeit explizit zur Verf\u00fcgung. Somit ist es in Ordnung, Inhalte <strong>maschinell auszulesen lassen<\/strong> und f\u00fcr den pers\u00f6nlichen Gebrauch aufzubereiten.<\/p>\n<p>Sollten auf einer Website <strong>entsprechende technische Sperren<\/strong> errichtet sein, d\u00fcrfen diese nicht umgangen werden. Auch sind Verst\u00f6\u00dfe gegen das Urheberrecht illegal, man darf nicht ganze Websites oder Teile davon kopieren, auch keine Fotos.<\/p>\n<h2 class=\"wp-block-heading\">Social Media Scraping<\/h2>\n<div class=\"wp-block-image\">\n<figure class=\"alignright is-resized\"><img loading=\"lazy\" decoding=\"async\" src=\"https:\/\/cdn.pixabay.com\/photo\/2018\/08\/07\/10\/24\/chatbot-3589528_960_720.jpg\" alt=\"Chatbot, Bot, Chatten\" width=\"315\" height=\"273\"\/><\/figure>\n<\/div>\n<p>Eine Form von Web Scraping, die Ihnen vielleicht nicht sofort in den Sinn kommt, ist das Social Media Scraping. Nat\u00fcrlich k\u00f6nnen Bots auch die Inhalte von Facebook, Twitter, Instagram und Co. auslesen. Von den Anbietern ist das sogar erw\u00fcnscht, denn alles was mehr <a href=\"https:\/\/www.sortlist.de\/blog\/engagement-rate\/\" target=\"_blank\" rel=\"noreferrer noopener\">Engagement<\/a> und mehr Traffic erzeugt, wird positiv gesehen. Schlie\u00dflich werden die Daten ben\u00f6tigt, um sie an Werbeanbieter zu verkaufen.<\/p>\n<p>Falls Sie das nicht betrifft, weil sie bei Facebook und Co. keine verf\u00e4nglichen Daten posten, wie sieht es dann mit beruflichen Netzwerken wie <a href=\"https:\/\/www.sortlist.de\/s\/xing\/deutschland-de\" target=\"_blank\" rel=\"noreferrer noopener\">Xing<\/a> oder LinkedIn aus? Auch in diesen findet <strong>Screen<\/strong> <strong>Scraping<\/strong> statt, obwohl die Anbieter versuchen, es m\u00f6glichst zu verhindern.<\/p>\n<p>Dar\u00fcber hinaus gibt es in den sozialen Medien neben dem Aussp\u00e4hen der Daten das Problem, dass <a href=\"https:\/\/www.sortlist.de\/blog\/chatbots\/\" target=\"_blank\" rel=\"noreferrer noopener\">Chatbots<\/a> dort wie Menschen agieren, ohne dass es auff\u00e4llt.<\/p>\n<h2 class=\"wp-block-heading\">Web Scraping verhindern<\/h2>\n<p>Es gibt mehr oder weniger hilfreiche Methoden, um Web Scraping zu verhindern. Einige davon wollen wir hier vorstellen.<\/p>\n<h3 class=\"wp-block-heading\">Verbieten oder Einschr\u00e4nken durch die robots.txt<\/h3>\n<p>Wer eine Website baut, f\u00fcgt \u00fcblicherweise die Datei &#8222;robots.txt&#8220; hinzu. Das ist <strong>eine einfache Text-Datei<\/strong>, in der die Anweisungen f\u00fcr Bots stehen. Aufgrund des Robots-Exclusion-Standard-Protokolls, das einen gewissen Ehrenkodex darstellt, lesen seri\u00f6se Scraping-Programme immer zuerst diese Datei und befolgen die Anweisungen darin.<\/p>\n<p>In der robots.txt kann bestimmten Bots untersagt werden, die Website aufzurufen. Desweiteren gibt es den Befehl, Links nicht aufzurufen (&#8222;<strong>nofollow<\/strong>&#8222;) oder die Seite nicht in ein Verzeichnis aufzunehmen (&#8222;<strong>noindex<\/strong>&#8222;). Es gibt einen Hinweis, die Website nicht in Archive aufzunehmen (&#8222;<strong>noarchive<\/strong>&#8222;). Ein wichtiges Element in der robots.txt ist der Hinweis auf die URL der Sitemap, die den Bots die Arbeit erleichtert.<\/p>\n<p>Diese Methode funktioniert leider nur bei den &#8222;guten&#8220; Bots. Wer beim Web Scraping b\u00f6se Absichten hegt, wird die Anweisungen in der robots.txt sicher nicht befolgen.<\/p>\n<h3 class=\"wp-block-heading\">Bots \u00fcberlisten durch Captcha und Co.<\/h3>\n<p>Captchas sind Tests, bei denen ein Mensch einem Bot \u00fcberlegen ist. Es muss ein Wort eingegeben oder mehrere Bilder erkannt werden. Auch Rechenaufgaben sind gerne gesehen. Wenn der Bot den Text nicht besteht, kann er keinen Spam und keine Malware einbringen.<\/p>\n<figure class=\"wp-block-image size-full is-resized\"><img loading=\"lazy\" decoding=\"async\" src=\"https:\/\/www.sortlist.de\/blog\/wp-content\/uploads\/sites\/4\/2021\/12\/bildschirmfoto-2021-12-03-um-11.16.10.png\" alt=\"captcha abfrage\" class=\"wp-image-5122\" width=\"316\" height=\"249\" srcset=\"https:\/\/cdn.blog.production.sortlist.cloud\/wp-content\/uploads\/sites\/4\/2021\/12\/bildschirmfoto-2021-12-03-um-11.16.10.png 666w, https:\/\/cdn.blog.production.sortlist.cloud\/wp-content\/uploads\/sites\/4\/2021\/12\/bildschirmfoto-2021-12-03-um-11.16.10-50x39.png 50w, https:\/\/cdn.blog.production.sortlist.cloud\/wp-content\/uploads\/sites\/4\/2021\/12\/bildschirmfoto-2021-12-03-um-11.16.10-288x227.png 288w, https:\/\/cdn.blog.production.sortlist.cloud\/wp-content\/uploads\/sites\/4\/2021\/12\/bildschirmfoto-2021-12-03-um-11.16.10-576x453.png 576w, https:\/\/cdn.blog.production.sortlist.cloud\/wp-content\/uploads\/sites\/4\/2021\/12\/bildschirmfoto-2021-12-03-um-11.16.10-339x267.png 339w, https:\/\/cdn.blog.production.sortlist.cloud\/wp-content\/uploads\/sites\/4\/2021\/12\/bildschirmfoto-2021-12-03-um-11.16.10-373x293.png 373w, https:\/\/cdn.blog.production.sortlist.cloud\/wp-content\/uploads\/sites\/4\/2021\/12\/bildschirmfoto-2021-12-03-um-11.16.10-478x376.png 478w, https:\/\/cdn.blog.production.sortlist.cloud\/wp-content\/uploads\/sites\/4\/2021\/12\/bildschirmfoto-2021-12-03-um-11.16.10-516x406.png 516w\" sizes=\"auto, (max-width: 316px) 100vw, 316px\" \/><\/figure>\n<p>Captchas werden \u00fcberall dort eingesetzt, wo eine Website <strong>Eingabefelder<\/strong> hat, also beispielsweise in G\u00e4steb\u00fcchern, Kontaktformularen und Kommentarfeldern. Leider scheitern auch Menschen oft an den Capchas, was das Nutzererlebnis schm\u00e4lert und zu Seitenabbr\u00fcchen f\u00fchrt.<\/p>\n<p>Sollten Sie in diesem Bereich bei Ihrer Website Probleme festgestellt haben, <a href=\"https:\/\/www.sortlist.de\/ux-agentur\" target=\"_blank\" rel=\"noopener noreferrer\">hilft Ihnen eine Agentur f\u00fcr Web Usability<\/a> weiter. Diese Agenturen sind darauf spezialisiert, dass Menschen sich auf Ihrer Seite wohlf\u00fchlen. Sie haben aber auch das technische Know-How, um Bots in ihre Schranken zu verweisen.<\/p>\n<h3 class=\"wp-block-heading\">Honeypot-Felder<\/h3>\n<p>Eine weitere M\u00f6glichkeit ist die Verwendung von <strong>versteckten<\/strong> <strong>Feldern<\/strong>, die f\u00fcr Menschen nicht sichtbar sind. So wie der Honig den B\u00e4ren anlockt, k\u00f6nnen die Bots die Honeypot-Felder nicht ignorieren. Diese Felder fordern zu bestimmten Eingaben wie etwa einer URL auf. Normalerweise folgt der Bot dieser Aufforderung und verr\u00e4t sich unter anderem dadurch als virtuelle Maschine, die dann blockiert wird.<\/p>\n<h3 class=\"wp-block-heading\">IP-Adressen sperren<\/h3>\n<p>Adressen von Spammern k\u00f6nnen direkt gesperrt werden, so dass diese Ihre Seite gar nicht aufrufen k\u00f6nnen. Nat\u00fcrlich kennen Sie als Unternehmen nicht die IP-Adressen von allen m\u00f6glichen Spammern und k\u00f6nnen diese Option nicht ohne Weiteres umsetzen. Hier kommen bestimmte <strong>Dienste und Plugins<\/strong> ins Spiel, die eine Blacklist f\u00fchren und daf\u00fcr sorgen, dass zumindest ein Teil der unerw\u00fcnschten G\u00e4ste ausbleibt.<\/p>\n<h3 class=\"wp-block-heading\">Bilder und CSS nutzen<\/h3>\n<p>Sensible Daten wie E-Mail-Adressen und Telefonnummern k\u00f6nnen <strong>als Bild dargestellt werden<\/strong>. Dieses kann ein Bot nicht auslesen, leider aber auch nicht ein Screen-Reader, der die Texte auf Computerbildschirmen vorliest. Somit ist diese L\u00f6sung nicht barrierefrei und die Verwendung von Bildern sollte \u00fcberdacht werden. Besser ist eine <strong>Darstellung mittels CSS<\/strong>, die ebenfalls sicher vor Bots ist.<\/p>\n<h2 class=\"wp-block-heading\">Web Scraping betrifft uns alle<\/h2>\n<p>M\u00f6glicherweise schauen Sie Ihre Website vor diesem Hintergrund mit neuem Blick an, weil Sie etwas Neues gelernt haben. Vielleicht stellen Sie fest, dass manche Inhalte zu sensibel sind, als dass sie Web Scrapern offen zur Verf\u00fcgung gestellt werden sollten.<\/p>\n<p>Die Gefahr, dass Ihr origin\u00e4rer Seiteninhalt als Duplicate Content deklariert wird, war Ihnen wom\u00f6glich zuvor nicht bewusst. Vielleicht \u00fcberlegen Sie auch, sich selbst das Web Scraping zu Nutze zu machen. In jedem Fall freuen wir uns, dass wir Ihnen mit unserem Artikel das Thema Web-Scraping etwas n\u00e4her bringen konnten.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>In diesem Artikel geht es um das automatisierte Abgreifen von Daten aus dem Internet durch Bots. Wir beschreiben, wo Web Scraping zum Einsatz kommt und wie es sich einschr\u00e4nken und verhindern l\u00e4sst. Was ist Web Scraping? Wie so oft im Marketing und in der IT gibt es mehrere Begriffe f\u00fcr die gleiche Sache: Das systematische [&hellip;]<\/p>\n","protected":false},"author":12,"featured_media":9423,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_acf_changed":false,"_sb_show_comment_boards":false,"content-type":"","om_disable_all_campaigns":false,"footnotes":""},"categories":[59],"class_list":["post-2786","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-webentwicklung"],"acf":[],"yoast_head":"<!-- This site is optimized with the Yoast SEO plugin v27.7 - https:\/\/yoast.com\/product\/yoast-seo-wordpress\/ -->\n<title>Achtung, Bots: Was ist Web Scraping bzw. Screen Scraping?<\/title>\n<meta name=\"description\" content=\"Web Scraping: Wo es zum Einsatz kommt, sein Nutzen oder Schaden und wie sich Web Harvesting einschr\u00e4nken und verhindern l\u00e4sst.\" \/>\n<meta name=\"robots\" content=\"index, follow, max-snippet:-1, max-image-preview:large, max-video-preview:-1\" \/>\n<link rel=\"canonical\" href=\"https:\/\/www.sortlist.de\/blog\/web-scraping\/\" \/>\n<meta property=\"og:locale\" content=\"de_DE\" \/>\n<meta property=\"og:type\" content=\"article\" \/>\n<meta property=\"og:title\" content=\"Achtung, Bots: Was ist Web Scraping bzw. Screen Scraping?\" \/>\n<meta property=\"og:description\" content=\"Web Scraping: Wo es zum Einsatz kommt, sein Nutzen oder Schaden und wie sich Web Harvesting einschr\u00e4nken und verhindern l\u00e4sst.\" \/>\n<meta property=\"og:url\" content=\"https:\/\/www.sortlist.de\/blog\/web-scraping\/\" \/>\n<meta property=\"og:site_name\" content=\"Sortlist Blog\" \/>\n<meta property=\"article:published_time\" content=\"2021-03-29T10:47:41+00:00\" \/>\n<meta property=\"article:modified_time\" content=\"2025-04-01T09:15:26+00:00\" \/>\n<meta property=\"og:image\" content=\"https:\/\/cdn.blog.production.sortlist.cloud\/wp-content\/uploads\/sites\/4\/2021\/03\/de-cover-images-9.jpg\" \/>\n\t<meta property=\"og:image:width\" content=\"1748\" \/>\n\t<meta property=\"og:image:height\" content=\"1240\" \/>\n\t<meta property=\"og:image:type\" content=\"image\/jpeg\" \/>\n<meta name=\"author\" content=\"Leonard Basse\" \/>\n<meta name=\"twitter:card\" content=\"summary_large_image\" \/>\n<meta name=\"twitter:label1\" content=\"Verfasst von\" \/>\n\t<meta name=\"twitter:data1\" content=\"Leonard Basse\" \/>\n\t<meta name=\"twitter:label2\" content=\"Gesch\u00e4tzte Lesezeit\" \/>\n\t<meta name=\"twitter:data2\" content=\"11\u00a0Minuten\" \/>\n<script type=\"application\/ld+json\" class=\"yoast-schema-graph\">{\"@context\":\"https:\\\/\\\/schema.org\",\"@graph\":[{\"@type\":\"Article\",\"@id\":\"https:\\\/\\\/www.sortlist.de\\\/blog\\\/web-scraping\\\/#article\",\"isPartOf\":{\"@id\":\"https:\\\/\\\/www.sortlist.de\\\/blog\\\/web-scraping\\\/\"},\"author\":{\"name\":\"Leonard Basse\",\"@id\":\"https:\\\/\\\/www.sortlist.de\\\/blog\\\/#\\\/schema\\\/person\\\/b9802b27b8299e4488ece8cb1575dc19\"},\"headline\":\"Achtung, Bots: Was ist Web Scraping bzw. Screen Scraping?\",\"datePublished\":\"2021-03-29T10:47:41+00:00\",\"dateModified\":\"2025-04-01T09:15:26+00:00\",\"mainEntityOfPage\":{\"@id\":\"https:\\\/\\\/www.sortlist.de\\\/blog\\\/web-scraping\\\/\"},\"wordCount\":1857,\"commentCount\":0,\"image\":{\"@id\":\"https:\\\/\\\/www.sortlist.de\\\/blog\\\/web-scraping\\\/#primaryimage\"},\"thumbnailUrl\":\"https:\\\/\\\/cdn.blog.production.sortlist.cloud\\\/wp-content\\\/uploads\\\/sites\\\/4\\\/2021\\\/03\\\/de-cover-images-9.jpg\",\"articleSection\":[\"Webentwicklung\"],\"inLanguage\":\"de\",\"potentialAction\":[{\"@type\":\"CommentAction\",\"name\":\"Comment\",\"target\":[\"https:\\\/\\\/www.sortlist.de\\\/blog\\\/web-scraping\\\/#respond\"]}]},{\"@type\":\"WebPage\",\"@id\":\"https:\\\/\\\/www.sortlist.de\\\/blog\\\/web-scraping\\\/\",\"url\":\"https:\\\/\\\/www.sortlist.de\\\/blog\\\/web-scraping\\\/\",\"name\":\"Achtung, Bots: Was ist Web Scraping bzw. Screen Scraping?\",\"isPartOf\":{\"@id\":\"https:\\\/\\\/www.sortlist.de\\\/blog\\\/#website\"},\"primaryImageOfPage\":{\"@id\":\"https:\\\/\\\/www.sortlist.de\\\/blog\\\/web-scraping\\\/#primaryimage\"},\"image\":{\"@id\":\"https:\\\/\\\/www.sortlist.de\\\/blog\\\/web-scraping\\\/#primaryimage\"},\"thumbnailUrl\":\"https:\\\/\\\/cdn.blog.production.sortlist.cloud\\\/wp-content\\\/uploads\\\/sites\\\/4\\\/2021\\\/03\\\/de-cover-images-9.jpg\",\"datePublished\":\"2021-03-29T10:47:41+00:00\",\"dateModified\":\"2025-04-01T09:15:26+00:00\",\"author\":{\"@id\":\"https:\\\/\\\/www.sortlist.de\\\/blog\\\/#\\\/schema\\\/person\\\/b9802b27b8299e4488ece8cb1575dc19\"},\"description\":\"Web Scraping: Wo es zum Einsatz kommt, sein Nutzen oder Schaden und wie sich Web Harvesting einschr\u00e4nken und verhindern l\u00e4sst.\",\"breadcrumb\":{\"@id\":\"https:\\\/\\\/www.sortlist.de\\\/blog\\\/web-scraping\\\/#breadcrumb\"},\"inLanguage\":\"de\",\"potentialAction\":[{\"@type\":\"ReadAction\",\"target\":[\"https:\\\/\\\/www.sortlist.de\\\/blog\\\/web-scraping\\\/\"]}]},{\"@type\":\"ImageObject\",\"inLanguage\":\"de\",\"@id\":\"https:\\\/\\\/www.sortlist.de\\\/blog\\\/web-scraping\\\/#primaryimage\",\"url\":\"https:\\\/\\\/cdn.blog.production.sortlist.cloud\\\/wp-content\\\/uploads\\\/sites\\\/4\\\/2021\\\/03\\\/de-cover-images-9.jpg\",\"contentUrl\":\"https:\\\/\\\/cdn.blog.production.sortlist.cloud\\\/wp-content\\\/uploads\\\/sites\\\/4\\\/2021\\\/03\\\/de-cover-images-9.jpg\",\"width\":1748,\"height\":1240,\"caption\":\"web scraping\"},{\"@type\":\"BreadcrumbList\",\"@id\":\"https:\\\/\\\/www.sortlist.de\\\/blog\\\/web-scraping\\\/#breadcrumb\",\"itemListElement\":[{\"@type\":\"ListItem\",\"position\":1,\"name\":\"Home\",\"item\":\"https:\\\/\\\/www.sortlist.de\\\/blog\\\/\"},{\"@type\":\"ListItem\",\"position\":2,\"name\":\"Achtung, Bots: Was ist Web Scraping bzw. Screen Scraping?\"}]},{\"@type\":\"WebSite\",\"@id\":\"https:\\\/\\\/www.sortlist.de\\\/blog\\\/#website\",\"url\":\"https:\\\/\\\/www.sortlist.de\\\/blog\\\/\",\"name\":\"Sortlist Blog\",\"description\":\"Sortlist Blog\",\"potentialAction\":[{\"@type\":\"SearchAction\",\"target\":{\"@type\":\"EntryPoint\",\"urlTemplate\":\"https:\\\/\\\/www.sortlist.de\\\/blog\\\/?s={search_term_string}\"},\"query-input\":{\"@type\":\"PropertyValueSpecification\",\"valueRequired\":true,\"valueName\":\"search_term_string\"}}],\"inLanguage\":\"de\"},{\"@type\":\"Person\",\"@id\":\"https:\\\/\\\/www.sortlist.de\\\/blog\\\/#\\\/schema\\\/person\\\/b9802b27b8299e4488ece8cb1575dc19\",\"name\":\"Leonard Basse\",\"image\":{\"@type\":\"ImageObject\",\"inLanguage\":\"de\",\"@id\":\"https:\\\/\\\/blog.production.sortlist.cloud\\\/wp-content\\\/uploads\\\/2021\\\/07\\\/avatar_user_12_1625133031-96x96.jpeg\",\"url\":\"https:\\\/\\\/blog.production.sortlist.cloud\\\/wp-content\\\/uploads\\\/2021\\\/07\\\/avatar_user_12_1625133031-96x96.jpeg\",\"contentUrl\":\"https:\\\/\\\/blog.production.sortlist.cloud\\\/wp-content\\\/uploads\\\/2021\\\/07\\\/avatar_user_12_1625133031-96x96.jpeg\",\"caption\":\"Leonard Basse\"},\"description\":\"Lenni is someone we would typically call \u00ab the cool kid \u00bb, of the content team. Passionate by nature &amp; surf, when he is not riding his bike, you will find him behind his computer writing about his other passion: marketing!\",\"url\":\"https:\\\/\\\/www.sortlist.de\\\/blog\\\/author\\\/leonard-basse\\\/\"}]}<\/script>\n<!-- \/ Yoast SEO plugin. -->","yoast_head_json":{"title":"Achtung, Bots: Was ist Web Scraping bzw. Screen Scraping?","description":"Web Scraping: Wo es zum Einsatz kommt, sein Nutzen oder Schaden und wie sich Web Harvesting einschr\u00e4nken und verhindern l\u00e4sst.","robots":{"index":"index","follow":"follow","max-snippet":"max-snippet:-1","max-image-preview":"max-image-preview:large","max-video-preview":"max-video-preview:-1"},"canonical":"https:\/\/www.sortlist.de\/blog\/web-scraping\/","og_locale":"de_DE","og_type":"article","og_title":"Achtung, Bots: Was ist Web Scraping bzw. Screen Scraping?","og_description":"Web Scraping: Wo es zum Einsatz kommt, sein Nutzen oder Schaden und wie sich Web Harvesting einschr\u00e4nken und verhindern l\u00e4sst.","og_url":"https:\/\/www.sortlist.de\/blog\/web-scraping\/","og_site_name":"Sortlist Blog","article_published_time":"2021-03-29T10:47:41+00:00","article_modified_time":"2025-04-01T09:15:26+00:00","og_image":[{"width":1748,"height":1240,"url":"https:\/\/cdn.blog.production.sortlist.cloud\/wp-content\/uploads\/sites\/4\/2021\/03\/de-cover-images-9.jpg","type":"image\/jpeg"}],"author":"Leonard Basse","twitter_card":"summary_large_image","twitter_misc":{"Verfasst von":"Leonard Basse","Gesch\u00e4tzte Lesezeit":"11\u00a0Minuten"},"schema":{"@context":"https:\/\/schema.org","@graph":[{"@type":"Article","@id":"https:\/\/www.sortlist.de\/blog\/web-scraping\/#article","isPartOf":{"@id":"https:\/\/www.sortlist.de\/blog\/web-scraping\/"},"author":{"name":"Leonard Basse","@id":"https:\/\/www.sortlist.de\/blog\/#\/schema\/person\/b9802b27b8299e4488ece8cb1575dc19"},"headline":"Achtung, Bots: Was ist Web Scraping bzw. Screen Scraping?","datePublished":"2021-03-29T10:47:41+00:00","dateModified":"2025-04-01T09:15:26+00:00","mainEntityOfPage":{"@id":"https:\/\/www.sortlist.de\/blog\/web-scraping\/"},"wordCount":1857,"commentCount":0,"image":{"@id":"https:\/\/www.sortlist.de\/blog\/web-scraping\/#primaryimage"},"thumbnailUrl":"https:\/\/cdn.blog.production.sortlist.cloud\/wp-content\/uploads\/sites\/4\/2021\/03\/de-cover-images-9.jpg","articleSection":["Webentwicklung"],"inLanguage":"de","potentialAction":[{"@type":"CommentAction","name":"Comment","target":["https:\/\/www.sortlist.de\/blog\/web-scraping\/#respond"]}]},{"@type":"WebPage","@id":"https:\/\/www.sortlist.de\/blog\/web-scraping\/","url":"https:\/\/www.sortlist.de\/blog\/web-scraping\/","name":"Achtung, Bots: Was ist Web Scraping bzw. Screen Scraping?","isPartOf":{"@id":"https:\/\/www.sortlist.de\/blog\/#website"},"primaryImageOfPage":{"@id":"https:\/\/www.sortlist.de\/blog\/web-scraping\/#primaryimage"},"image":{"@id":"https:\/\/www.sortlist.de\/blog\/web-scraping\/#primaryimage"},"thumbnailUrl":"https:\/\/cdn.blog.production.sortlist.cloud\/wp-content\/uploads\/sites\/4\/2021\/03\/de-cover-images-9.jpg","datePublished":"2021-03-29T10:47:41+00:00","dateModified":"2025-04-01T09:15:26+00:00","author":{"@id":"https:\/\/www.sortlist.de\/blog\/#\/schema\/person\/b9802b27b8299e4488ece8cb1575dc19"},"description":"Web Scraping: Wo es zum Einsatz kommt, sein Nutzen oder Schaden und wie sich Web Harvesting einschr\u00e4nken und verhindern l\u00e4sst.","breadcrumb":{"@id":"https:\/\/www.sortlist.de\/blog\/web-scraping\/#breadcrumb"},"inLanguage":"de","potentialAction":[{"@type":"ReadAction","target":["https:\/\/www.sortlist.de\/blog\/web-scraping\/"]}]},{"@type":"ImageObject","inLanguage":"de","@id":"https:\/\/www.sortlist.de\/blog\/web-scraping\/#primaryimage","url":"https:\/\/cdn.blog.production.sortlist.cloud\/wp-content\/uploads\/sites\/4\/2021\/03\/de-cover-images-9.jpg","contentUrl":"https:\/\/cdn.blog.production.sortlist.cloud\/wp-content\/uploads\/sites\/4\/2021\/03\/de-cover-images-9.jpg","width":1748,"height":1240,"caption":"web scraping"},{"@type":"BreadcrumbList","@id":"https:\/\/www.sortlist.de\/blog\/web-scraping\/#breadcrumb","itemListElement":[{"@type":"ListItem","position":1,"name":"Home","item":"https:\/\/www.sortlist.de\/blog\/"},{"@type":"ListItem","position":2,"name":"Achtung, Bots: Was ist Web Scraping bzw. Screen Scraping?"}]},{"@type":"WebSite","@id":"https:\/\/www.sortlist.de\/blog\/#website","url":"https:\/\/www.sortlist.de\/blog\/","name":"Sortlist Blog","description":"Sortlist Blog","potentialAction":[{"@type":"SearchAction","target":{"@type":"EntryPoint","urlTemplate":"https:\/\/www.sortlist.de\/blog\/?s={search_term_string}"},"query-input":{"@type":"PropertyValueSpecification","valueRequired":true,"valueName":"search_term_string"}}],"inLanguage":"de"},{"@type":"Person","@id":"https:\/\/www.sortlist.de\/blog\/#\/schema\/person\/b9802b27b8299e4488ece8cb1575dc19","name":"Leonard Basse","image":{"@type":"ImageObject","inLanguage":"de","@id":"https:\/\/blog.production.sortlist.cloud\/wp-content\/uploads\/2021\/07\/avatar_user_12_1625133031-96x96.jpeg","url":"https:\/\/blog.production.sortlist.cloud\/wp-content\/uploads\/2021\/07\/avatar_user_12_1625133031-96x96.jpeg","contentUrl":"https:\/\/blog.production.sortlist.cloud\/wp-content\/uploads\/2021\/07\/avatar_user_12_1625133031-96x96.jpeg","caption":"Leonard Basse"},"description":"Lenni is someone we would typically call \u00ab the cool kid \u00bb, of the content team. Passionate by nature &amp; surf, when he is not riding his bike, you will find him behind his computer writing about his other passion: marketing!","url":"https:\/\/www.sortlist.de\/blog\/author\/leonard-basse\/"}]}},"_links":{"self":[{"href":"https:\/\/www.sortlist.de\/blog\/wp-json\/wp\/v2\/posts\/2786","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.sortlist.de\/blog\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.sortlist.de\/blog\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.sortlist.de\/blog\/wp-json\/wp\/v2\/users\/12"}],"replies":[{"embeddable":true,"href":"https:\/\/www.sortlist.de\/blog\/wp-json\/wp\/v2\/comments?post=2786"}],"version-history":[{"count":6,"href":"https:\/\/www.sortlist.de\/blog\/wp-json\/wp\/v2\/posts\/2786\/revisions"}],"predecessor-version":[{"id":11511,"href":"https:\/\/www.sortlist.de\/blog\/wp-json\/wp\/v2\/posts\/2786\/revisions\/11511"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/www.sortlist.de\/blog\/wp-json\/wp\/v2\/media\/9423"}],"wp:attachment":[{"href":"https:\/\/www.sortlist.de\/blog\/wp-json\/wp\/v2\/media?parent=2786"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.sortlist.de\/blog\/wp-json\/wp\/v2\/categories?post=2786"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}