100% unverbindliche Anfrage

Bitte wählen Sie:

Scraping Begriffserklärung und Definition

scrapingBeim Screen Scraping handelt es sich um das Auslesen von verschiedenartigen Texten. Diese werden aus Computerbildschirmen ausgelesen. Heute wird das Scraping nahezu ausschließlich für das Auslesen von Webseites verwendet. Daher ist mit Scraping meist Web Scraping gemeint. Das Ziel von Scraping ist die Informationsgewinnung und das Extrahieren von Daten.
Der Einsatz von Scraping durch Suchmaschinen und dem Web-Mining
Bei der Verwendung von Scraping durch die Suchmaschinen werden Crawler verwendet, um das Word Wide Web zu durchsuchen. Zudem dient das Scraping der Analyse von Webseites und dem Sammeln von Daten. Solche Daten können E-Mail-Adressen oder RSS-Feeds sein. Diese Methode des Scrapings wird auch beim Web-Mining verwendet.
Scraping als Ersatz von Web-Services
Webseiteanbieter bieten ihre Sites nicht nur als eine von den Menschen lesbare Webseite an, sondern häufig auch in maschinenlesbaren Formaten wie XML. Dadurch können Kunden gezielt nach Informationen suchen. Diese Daten werden dem Kunden als Webservice zur Verfügung gestellt. Diese Daten können automatisiert weiterverarbeitet werden. Das Screen Scraping wird hier eingesetzt, damit die Kunden die Daten der Webseite filtern können, ohne dass ein Webservice komplett eingerichtet werden muss.
Das erweiterte Browsen
Durch das Web Scraping können Browser weitere Funktionen erhalten. Dadurch können umständliche Vorgänge vereinfacht werden. Die Anmeldevorgänge können so automatisiert abgerufen werden. Aber auch die Dienste der Webseites können derart abgerufen werden, ohne dass die User die Webseite besuchen müssen. Das kann beispielsweise in Form einer Symbolleiste im Browser geschehen. Eine vereinfachte Form des Scrapings ist das Bookmarklet.
Remixing als Scraping-Methode
Beim Remixing handelt es sich um eine Technik, bei welcher die Webinhalte von verschiedenen Diensten miteinander verbunden werden. Dies geschieht in Form eines neuen Dienstes. Insofern es hierfür keine offenen Programmierschnittstellen gibt, müssen hier Scraping-Methoden eingesetzt werden.
Missbrauch des Scraping
Das Screen Scraping kann auch missbraucht werden. Das geschieht, indem die Inhalte von Webseites ohne Einverständnis kopiert werden. Diese werden dann auf einem neuen Server angeboten.
Die Funktionsweise des Screen Scraping
Beim Screen Scraping werden zwei Schritte vollzogen. Zum einen werden die benötigten Daten extrahiert. Danach werden die Webseites abgerufen. Bei statischen Webseites befinden sich die relevanten Daten auf der Webseite. Diese kann über eine URL aufgerufen werden. Hier wird die Webseite heruntergeladen. Die Daten werden nun durch eine passende Methode extrahiert. Bei Formularen werden die benötigten Parameter durch das Ausfüllen von Webformularen erfragt. Hier werden die Parameter an ein POST-Request, einen Nachrichtenkörper anstelle der URL übergeben. Bei personalisierten Webseiten sind viele personalisierte Informationen vorhanden. Durch das HTTP, das Hypertext Transfer Protokoll gibt es keine nativen Möglichkeiten, die Anfragen einer Person zuzuordnen. Um diese Person wieder zu erkennen, müssen die Serveranwendungen auf die auf HTTP aufgesetzten Sitzungskonzepte angewendet werden. Hier werden häufig Sessions-IDS übertragen. Diese Übertragung erfolgt über die URL oder auch durch Cookies.
Die Extraktion von Daten beim Scraping
Um Daten aus Webseites zu ziehen werden Programme genutzt, die Wrapper genannt werden. Nach dem Herunterladen der Webseite muss überprüft werden ob der Ort der Webseite in einer zweiten Tabelle oder dritten Spalte angelegt ist. Ist der Ort bekannt gibt es verschiedene Möglichkeiten zur Extraktion. Die Webseites können als Zeichenketten interpretiert werden und mit den regulären Ausdrücken die Daten, die benötigt werden, extrahieren. Ist die Webseite XHTML konform, so kann ein XL-Parser genutzt werden. Durch Technologien wie SAX, XPath oder DOM kann der Zugriff erfolgen. Jedoch gibt es bei vielen Seiten fehlerhafte HTML-Formate, die nicht dem Stadard von XML entspreche. Hier können Parser bei der Erstellung von XML-konformen Dokumenten behilflich sein.
Zentralisierte Architekturen
Bei zentralisierten Architekturen sind die Screen Scraper auf speziellen Web-Servern installiert. Diese rufen in regelmäßigen Abständen die Daten ab und bietet sie in einer aufbereiteten Form a.
Verteilte Architekturen
Hierbei handelt es sich um verteilte Vorgehensweisen. Hier werden die benötigten Informationen durch den Client abgefragt. Die Daten werden nun entweder innerhalb einer Datenbank gespeichert, an eine andere Anwendung weitergeleitet oder im Browser dargestellt.
Die anbieterseitigen Abwehrmaßnahmen
Häufig haben die Content-Anbieter keinerlei Interesse daran, dass ihre Daten isoliert abgerufen werden. Ein möglicher Grund kann die Finanzierung des Anbieters über Werbeeinblendungen sein. Diese können durch das Scraping leicht gefiltert werden.
Die Kontrolle der Benutzer
Durch den Server werden die Benutzer gezwungen, eine bestimmte Navigationsreihenfolge einzuhalten. Das geschieht durch Session-IDs. Wird die Verkehrslenkungsseite aufgerufen wird eine temporäre Session-ID vergebe. Diese Session-ID wird über die URL, durch Cookies oder durch versteckte Formularfelder übertragen. Stößt ein Nutzer oder ein Bot über einen Deep-Link auf die Site, so hat er nun keine gültige Session-ID. Nu wird der Nutzer auf eine Verkehrslenkungsseite umgelenkt. Diese Strategie wird beispielsweise durch eBay verwendet. Hiermit können Deep Links auf Auktionslisten verhindert werden. Jedoch können speziell programmierte Scraper eine hier gültige Session-ID besorgen. So können die gewünschten Daten runter geladen werde.
Nicht nur die Zweckentfremdung der Session-IDs können das Verhalte der Nutzer kontrollieren. Daneben kann die Kontrolle des Referrers zur Abwehr der Deep Links genutzt werden. Aber auch die Kontrolle über Einbettungen von Grafiken oder Ähnlichem tragen zur Kontrolle der Nutzer bei. Ebenso verhält es sich mit der Kontrolle über die Java-Script-Elemente.
Die Unterscheidung zwischen menschlichen Usern von Bots
Um zu erkennen, an wen Daten geliefert werden, werden Captchas eingesetzt. Bei Captchas handelt es sich um einfach Codes, die jedoch schwer maschinenlesbar sind. Häufig müssen Buchstaben abgetippt werden oder auch Rechenaufgaben gelöst werde.
Verschleierungstechniken
Bei den Verschleiherungstechniken werden die Informationen derart aufbereitet, dass sie durch Maschinen nur schwer lesbar sind. Das ist bei Flash-Animationen, Java-Applets und bei Grafiken der Fall. Java-Script kann ebenfalls zur Verschleierung von Daten eingesetzt werden.
Die Möglichkeiten zur Erstellung von Scrapern
Je nachdem wie komplex eine Aufgabe ist, müssen die Screen Server jeweils neu programmiert werde. Durch Toolkits können diese Screen Scraper ohne Kenntnisse im Programmieren erstellt werden. Bibliotheken, Proxy-Server oder eigene Programme stellen die verschiedenen Implementierungsformen dar.

Anwendungsbeispiele

Mit Piggy-Bank, einer Erweiterung für Firefox lassen sich Verknüpfungen von Webdiensten der verschiedenen Anbieter umsetzen. Das Programm erkennt automatisch die RDF-Ressourcen auf einer Webseite. Werden auf der Webseite keine RDF-Ressourcen Angeboten gibt es die Möglichkeit mit Java-Script oder XSLT-basierte Scrapern zu verfahren. Greasemonkey ist eine ebenfalls bekannte Erweiterung von Firefox. Das Programm ermöglicht es dem Benutzer, Java-Script-Dateien innerhalb des Browsers zu nutzen. Diese können sowohl das Erscheinungsbild als auch das Verhalten der aktuellen Webseite verändern und individualisiere. Hierzu wird kein Zugriff auf die eigentliche Webseite benötigt. So können Webseites um Funktionen erweitert werden. Es können hiermit aber auch Darstellungsfehler behoben werden oder die Inhalte von fremden Webseites eingebunden werde. Auch regelhaft wiederkehrende Aufgaben können so automatisch erledigt werden. Bei dem Programm A9 von Amazon handelt es sich um ein Programm, welches über eine zentralisierte Remix-Architektur verfügt. Mit A9 können Suchergebnisse von verschiedenen Webdiensten wie aswers.com, Windows Live oder Wikipedia und auch vielen anderen innerhalb eines separaten Fensters dargestellt werden.

Die rechtlichen Probleme beim Scraping

Beim Scraping muss in erster Linie auf die Einhaltung der Urheberrechte genau geachtet werden. Das spielt vor allen Dingen dann eine Rolle, wenn ein eigenes Angebot in die fremde Site werden soll. Das Anbieten von Programmen, welche ein Scraping ermöglichen befindet sich in einer rechtlichen Grauzone. Wenn Informationen wie beispielsweise Werbung gezielt ausgeblendet werden, kann das ein rechtliches Problem darstellen. Auch das Unterdrücken von Informationen wie von Disclaimern, automatischen Bestätigungen der AGBs oder Warnungen ist nicht erlaubt. Das gilt insbesondere dann, wenn es sich hierbei um die Unterdrückung der AGBS durch das Scraping handelt.



Zurück zur Hauptseite: s

Sie haben Fragen?

Kostenlose, unverbindliche Erstberatung:

Anrufer aus Deutschland:
Tel. 0771 - 1589439
Internationale Beratung:
Tel. +49771 - 1589439
Anfrage per Email:
buero@seo-analyse.com

» zum Anfrage-Formular

Onpage Optimierung

Suchmaschinenoptimierung im Quelltext

Wir schaffen für Ihre Webseite oder Ihren Shop eine optimale Onpage-Basis für weiterführende Optimierungsmaßnahmen.

Offpage Optimierung

Offpage Suchmaschinenoptimierung

Natürlicher Linkaufbau gemäß den Regeln der Suchmaschinen - wir bieten ihn!

SEO Beratung

SEO Beratung

Unsere Spezialisten beraten Sie gerne hinsichtlich Ihrer akuten oder strategischen Fragen.

Ranking Monitoring

Ranking Optimierung

Bei uns Standard: qualifiziertes Monitoring Ihrer Google Platzierungen.

Suchmaschinenoptimierung für Google

Google Suchmaschinenoptimierung

Wir kombinieren Google Optimierung mit ganzheitlicher Suchmaschinenoptimierung.

SEO Strategie

SEO Strategie

Praxisbewährte Strategien, die auf Zahlen und Fakten basieren.

SEO Tools

SEO Tools

Immer im Bild: professionelle SEO Tools informieren Sie über den Status Quo.