Scraping Begriffserklärung & Definition

Beim Screen Scraping handelt es sich um das Auslesen von verschiedenartigen Texten. Diese werden aus Computerbildschirmen ausgelesen. Heute wird das Scraping nahezu ausschließlich für das Auslesen von Webseites verwendet. Daher ist mit Scraping meist Web Scraping gemeint. Das Ziel von Scraping ist die Informationsgewinnung und das Extrahieren von Daten.
Der Einsatz von Scraping durch Suchmaschinen und dem Web-Mining
Bei der Verwendung von Scraping durch die Suchmaschinen werden Crawler verwendet, um das Word Wide Web zu durchsuchen. Zudem dient das Scraping der Analyse von Webseites und dem Sammeln von Daten. Solche Daten können E-Mail-Adressen oder RSS-Feeds sein. Diese Methode des Scrapings wird auch beim Web-Mining verwendet.
Scraping als Ersatz von Web-Services
Webseiteanbieter bieten ihre Sites nicht nur als eine von den Menschen lesbare Webseite an, sondern häufig auch in maschinenlesbaren Formaten wie XML. Dadurch können Kunden gezielt nach Informationen suchen. Diese Daten werden dem Kunden als Webservice zur Verfügung gestellt. Diese Daten können automatisiert weiterverarbeitet werden. Das Screen Scraping wird hier eingesetzt, damit die Kunden die Daten der Webseite filtern können, ohne dass ein Webservice komplett eingerichtet werden muss.
Das erweiterte Browsen
Durch das Web Scraping können Browser weitere Funktionen erhalten. Dadurch können umständliche Vorgänge vereinfacht werden. Die Anmeldevorgänge können so automatisiert abgerufen werden. Aber auch die Dienste der Webseites können derart abgerufen werden, ohne dass die User die Webseite besuchen müssen. Das kann beispielsweise in Form einer Symbolleiste im Browser geschehen. Eine vereinfachte Form des Scrapings ist das Bookmarklet.
Remixing als Scraping-Methode
Beim Remixing handelt es sich um eine Technik, bei welcher die Webinhalte von verschiedenen Diensten miteinander verbunden werden. Dies geschieht in Form eines neuen Dienstes. Insofern es hierfür keine offenen Programmierschnittstellen gibt, müssen hier Scraping-Methoden eingesetzt werden.
Missbrauch des Scraping
Das Screen Scraping kann auch missbraucht werden. Das geschieht, indem die Inhalte von Webseites ohne Einverständnis kopiert werden. Diese werden dann auf einem neuen Server angeboten.
Die Funktionsweise des Screen Scraping
Beim Screen Scraping werden zwei Schritte vollzogen. Zum einen werden die benötigten Daten extrahiert. Danach werden die Webseites abgerufen. Bei statischen Webseites befinden sich die relevanten Daten auf der Webseite. Diese kann über eine URL aufgerufen werden. Hier wird die Webseite heruntergeladen. Die Daten werden nun durch eine passende Methode extrahiert. Bei Formularen werden die benötigten Parameter durch das Ausfüllen von Webformularen erfragt. Hier werden die Parameter an ein POST-Request, einen Nachrichtenkörper anstelle der URL übergeben. Bei personalisierten Webseiten sind viele personalisierte Informationen vorhanden. Durch das HTTP, das Hypertext Transfer Protokoll gibt es keine nativen Möglichkeiten, die Anfragen einer Person zuzuordnen. Um diese Person wieder zu erkennen, müssen die Serveranwendungen auf die auf HTTP aufgesetzten Sitzungskonzepte angewendet werden. Hier werden häufig Sessions-IDS übertragen. Diese Übertragung erfolgt über die URL oder auch durch Cookies.
Die Extraktion von Daten beim Scraping
Um Daten aus Webseites zu ziehen werden Programme genutzt, die Wrapper genannt werden. Nach dem Herunterladen der Webseite muss überprüft werden ob der Ort der Webseite in einer zweiten Tabelle oder dritten Spalte angelegt ist. Ist der Ort bekannt gibt es verschiedene Möglichkeiten zur Extraktion. Die Webseites können als Zeichenketten interpretiert werden und mit den regulären Ausdrücken die Daten, die benötigt werden, extrahieren. Ist die Webseite XHTML konform, so kann ein XL-Parser genutzt werden. Durch Technologien wie SAX, XPath oder DOM kann der Zugriff erfolgen. Jedoch gibt es bei vielen Seiten fehlerhafte HTML-Formate, die nicht dem Stadard von XML entspreche. Hier können Parser bei der Erstellung von XML-konformen Dokumenten behilflich sein.
Zentralisierte Architekturen
Bei zentralisierten Architekturen sind die Screen Scraper auf speziellen Web-Servern installiert. Diese rufen in regelmäßigen Abständen die Daten ab und bietet sie in einer aufbereiteten Form a.
Verteilte Architekturen
Hierbei handelt es sich um verteilte Vorgehensweisen. Hier werden die benötigten Informationen durch den Client abgefragt. Die Daten werden nun entweder innerhalb einer Datenbank gespeichert, an eine andere Anwendung weitergeleitet oder im Browser dargestellt.
Die anbieterseitigen Abwehrmaßnahmen
Häufig haben die Content-Anbieter keinerlei Interesse daran, dass ihre Daten isoliert abgerufen werden. Ein möglicher Grund kann die Finanzierung des Anbieters über Werbeeinblendungen sein. Diese können durch das Scraping leicht gefiltert werden.
Die Kontrolle der Benutzer
Durch den Server werden die Benutzer gezwungen, eine bestimmte Navigationsreihenfolge einzuhalten. Das geschieht durch Session-IDs. Wird die Verkehrslenkungsseite aufgerufen wird eine temporäre Session-ID vergebe. Diese Session-ID wird über die URL, durch Cookies oder durch versteckte Formularfelder übertragen. Stößt ein Nutzer oder ein Bot über einen Deep-Link auf die Site, so hat er nun keine gültige Session-ID. Nu wird der Nutzer auf eine Verkehrslenkungsseite umgelenkt. Diese Strategie wird beispielsweise durch eBay verwendet. Hiermit können Deep Links auf Auktionslisten verhindert werden. Jedoch können speziell programmierte Scraper eine hier gültige Session-ID besorgen. So können die gewünschten Daten runter geladen werde.
Nicht nur die Zweckentfremdung der Session-IDs können das Verhalte der Nutzer kontrollieren. Daneben kann die Kontrolle des Referrers zur Abwehr der Deep Links genutzt werden. Aber auch die Kontrolle über Einbettungen von Grafiken oder Ähnlichem tragen zur Kontrolle der Nutzer bei. Ebenso verhält es sich mit der Kontrolle über die Java-Script-Elemente.
Die Unterscheidung zwischen menschlichen Usern von Bots
Um zu erkennen, an wen Daten geliefert werden, werden Captchas eingesetzt. Bei Captchas handelt es sich um einfach Codes, die jedoch schwer maschinenlesbar sind. Häufig müssen Buchstaben abgetippt werden oder auch Rechenaufgaben gelöst werde.
Verschleierungstechniken
Bei den Verschleiherungstechniken werden die Informationen derart aufbereitet, dass sie durch Maschinen nur schwer lesbar sind. Das ist bei Flash-Animationen, Java-Applets und bei Grafiken der Fall. Java-Script kann ebenfalls zur Verschleierung von Daten eingesetzt werden.
Die Möglichkeiten zur Erstellung von Scrapern
Je nachdem wie komplex eine Aufgabe ist, müssen die Screen Server jeweils neu programmiert werde. Durch Toolkits können diese Screen Scraper ohne Kenntnisse im Programmieren erstellt werden. Bibliotheken, Proxy-Server oder eigene Programme stellen die verschiedenen Implementierungsformen dar.

Anwendungsbeispiele

Mit Piggy-Bank, einer Erweiterung für Firefox lassen sich Verknüpfungen von Webdiensten der verschiedenen Anbieter umsetzen. Das Programm erkennt automatisch die RDF-Ressourcen auf einer Webseite. Werden auf der Webseite keine RDF-Ressourcen Angeboten gibt es die Möglichkeit mit Java-Script oder XSLT-basierte Scrapern zu verfahren. Greasemonkey ist eine ebenfalls bekannte Erweiterung von Firefox. Das Programm ermöglicht es dem Benutzer, Java-Script-Dateien innerhalb des Browsers zu nutzen. Diese können sowohl das Erscheinungsbild als auch das Verhalten der aktuellen Webseite verändern und individualisiere. Hierzu wird kein Zugriff auf die eigentliche Webseite benötigt. So können Webseites um Funktionen erweitert werden. Es können hiermit aber auch Darstellungsfehler behoben werden oder die Inhalte von fremden Webseites eingebunden werde. Auch regelhaft wiederkehrende Aufgaben können so automatisch erledigt werden. Bei dem Programm A9 von Amazon handelt es sich um ein Programm, welches über eine zentralisierte Remix-Architektur verfügt. Mit A9 können Suchergebnisse von verschiedenen Webdiensten wie aswers.com, Windows Live oder Wikipedia und auch vielen anderen innerhalb eines separaten Fensters dargestellt werden.

Die rechtlichen Probleme beim Scraping

Beim Scraping muss in erster Linie auf die Einhaltung der Urheberrechte genau geachtet werden. Das spielt vor allen Dingen dann eine Rolle, wenn ein eigenes Angebot in die fremde Site werden soll. Das Anbieten von Programmen, welche ein Scraping ermöglichen befindet sich in einer rechtlichen Grauzone. Wenn Informationen wie beispielsweise Werbung gezielt ausgeblendet werden, kann das ein rechtliches Problem darstellen. Auch das Unterdrücken von Informationen wie von Disclaimern, automatischen Bestätigungen der AGBs oder Warnungen ist nicht erlaubt. Das gilt insbesondere dann, wenn es sich hierbei um die Unterdrückung der AGBS durch das Scraping handelt.

Zusammenfassung

Web Scraping ist ein Prozess, der Textdaten von Bildschirmen extrahiert, wobei er heute hauptsächlich für das Auslesen von Webseiten verwendet wird. Das Hauptziel ist die Gewinnung und Extraktion von Informationen. Es wird sowohl von Suchmaschinen als auch in Web-Mining-Prozessen eingesetzt, wobei Crawler und andere Technologien zum Einsatz kommen.

In einigen Fällen ersetzt Scraping sogar Web-Services. Webseitenanbieter, die maschinenlesbare Datenformate wie XML nutzen, ermöglichen Kunden den direkten Zugang zu Informationen ohne einen vollständigen Webservice. Darüber hinaus wird Web Scraping zur Verbesserung der Browser-Funktionalität genutzt, um beispielsweise Anmeldevorgänge zu automatisieren.

Remixing ist eine Technik, bei der Inhalte von verschiedenen Diensten miteinander verknüpft werden, oft unter Verwendung von Scraping-Methoden. Jedoch hat Web Scraping auch seine Schattenseiten: Es kann missbraucht werden, um Inhalte ohne Zustimmung zu kopieren. Daher ist die Beachtung der Urheberrechte entscheidend.

Die technische Umsetzung von Scraping erfordert oft den Einsatz von sogenannten Wrappern und spezialisierten Parsern. Verschiedene Architekturen sind dabei möglich, darunter zentrale und verteilte Ansätze. Zur Abwehr unerwünschten Scrapings setzen Webseitenanbieter eine Reihe von Mechanismen ein, darunter Session-IDs, Captchas und Verschleierungstechniken.

Scraping bietet vielfältige Anwendungsmöglichkeiten, etwa durch Browser-Erweiterungen wie Piggy-Bank und Greasemonkey, die das Verhalten und das Erscheinungsbild von Webseiten verändern können. Gleichzeitig existieren jedoch auch rechtliche Grauzonen, insbesondere im Hinblick auf Urheberrechte und die Unterdrückung von Werbeanzeigen oder AGBs.

Häufige Fragen und Antworten

Was ist Scraping?

Beim Scraping handelt es sich um das Auslesen von Texten, insbesondere von Webseiten. Es ist eine Methode zur Informationsgewinnung und Datenextraktion. Durch das Scraping werden verschiedene Techniken verwendet, um Daten von Webseiten zu extrahieren.

Wie wird Scraping von Suchmaschinen verwendet?

Suchmaschinen verwenden Scraping, um Webseiten zu durchsuchen, Webseiten zu analysieren und Daten zu sammeln. Crawler werden eingesetzt, um das World Wide Web zu durchsuchen. Durch das Scraping können beispielsweise E-Mail-Adressen oder RSS-Feeds extrahiert werden.

Welche rechtlichen Probleme gibt es beim Scraping?

Beim Scraping ist die Einhaltung der Urheberrechte besonders wichtig. Beim Scraping von fremden Webseiten muss darauf geachtet werden, keine Informationen ohne Zustimmung zu kopieren oder Werbung gezielt auszublenden. Auch die Unterdrückung von Informationen wie AGBs ist nicht erlaubt.

Scraping Begriffserklärung und Definition

Anwendungsbeispiele

Die rechtlichen Probleme beim Scraping

Zusammenfassung

Häufige Fragen und Antworten