Der Googlebot & die Suchmaschine von Google

Bild: Symbolbild, zeigt einen Roboter, ncht den GoogleBot.

Mit Googlebot ist ein von der Suchmaschine Google verwendetes Programm gemeint, das als Webcrawler Bilder und Texte im Internet aufspürt und diese Dokumente über die Bild- und Textsuche von Google für die Internetnutzer auffindbar macht.

Arbeitsweise des Googlebot

Der Prozess, durch den der Googlebot aktualisierte oder neue Internetseiten ermittelt, wird als Crawling bezeichnet. Zum Durchsuchen des Internets setzt Google eine große Anzahl von Rechnern ein, wobei täglich mehrere Milliarden Webseiten durchsucht werden. Ein Computerprogramm legt fest, welche Internetseiten wie oft und wann durchsucht werden.

Ebenfalls festgelegt ist die Anzahl von Seiten, die von einer zu durchsuchenden Webseite durchsucht werden. Der Googlebot beginnt den Crawling-Prozess mit einer Liste von URLs. Diese Liste wurde auf Grundlage früherer Crawling-Prozesse erzeugt und anhand spezieller XML-Sitemap-Daten ergänzt und vervollständigt. Die XML-Sitemap-Daten werden vom jeweiligen Webmaster zur Verfügung gestellt.

Besucht der Googlebot eine Webseite, dann werden Links mit Hilfe der HTML-Attribute HREF oder SRC automatisch erkannt und zu dieser Liste hinzugefügt. Wenn vorhandene Websites verändert wurden, Links veraltet sind oder neue Websites hinzugefügt wurden, dann wird dies von Googlebot erkannt und der Google-Index entsprechend aktualisiert.

In der Regel greift Googles Webcrawler Googlebot alle paar Sekunden nur einmal auf die Webseite zu. Netzwerkverzögerungen können dazu führen, dass diese Frequenz über einen kurzen Zeitraum betrachtet höher erscheint. In den meisten Fällen lädt der Googlebot von einer einzelnen Seite nur ein Exemplar herunter. Wird eine Seite mehrfach heruntergeladen, dann ist dies zumeist darauf zurückzuführen, dass der Webcrawler angehalten und neu gestartet wurde.

Der Googlebot ist auf mehrere Rechner verteilt. Durch diese Vorgehensweise soll die Leistung erhöht und der Umfang durchsuchter Seiten gesteigert werden. Um die erforderliche Bandbreite zu senken, führt Google die Crawler wenn möglich auf Rechnern aus, die sich in der Nähe der indexierten Webseiten befinden.

Eine Webseite für den Googlebot sperren

Es ist quasi unmöglich, einen Webserver dadurch im Verborgenen zu halten, dass die Adresse des Servers bzw. Links zu diesem Server nicht veröffentlicht werden – sobald auf der vermeintlich geheimen Seite ein Link zu einer anderen Webseite angeklickt wird, erscheint die „geheime“ Seite im Verweis-Tag und damit im Verweisprotokoll der besuchten Seite.

Zudem gibt es zunehmend das Problem fehlerhafter und veralteter Links, die daraus resultieren, dass geänderte Internetadressen nicht regelmäßig aktualisiert werden. Um zu verhindern, dass der Webcrawler Googlebot die Inhalte einer bestimmten Webseite durchsucht, können mit Hilfe der Datei „robots.txt“ die Verzeichnisse und Dateien auf dem jeweiligen Server gesperrt werden. Wird eine solche „robots.txt„-Datei erstellt, kann es unter Umständen ein wenig dauern, bis diese Änderung von Googlebot erkannt werden.

Wird die Webseite trotz der Datei „robots.txt“ auch weiterhin durchsucht, befindet sich die Datei vermutlich nicht im obersten Serververzeichnis und somit am falschen Speicherort. Um Fehlermeldungen der Art „Server nicht gefunden“ zu vermeiden, kann eine leere Datei mit dem Namen „robots.txt“ erstellt werden; damit Googlebot den Links, die auf der Webseite zu finden sind, nicht folgt, kann das Meta-Tag „nofollow“ verwendet werden.

Ob die Datei „robots.txt“ funktioniert, kann mit Hilfe entsprechender Tools überprüft werden. Des Weiteren sind Tools verfügbar, die es ermöglichen, eine Webseite so zu sehen, wie sie der Webcrawler Googlebot sieht.

Googlebot: Durchsuchen der Webseite sicherstellen

Eine Website wird vom Googlebot über die Links zu dieser Website gefunden. Um sicherzustellen, dass eine Internetseite durchsucht wird, können die von Google bereitgestellten Webmaster-Tools genutzt werden. Auf der dortigen Crawling-Fehler-Seite findet sich eine Liste mit allen Problemen, die von Googlebot beim Durchsuchen der Webseite festgestellt wurden.

Wird eine Internetseite nicht gefunden bzw. in den Suchergebnissen angezeigt, obwohl die Datei „robots.txt“ funktioniert, kann dies auf verschiedene Ursachen zurückzuführen sein. So ist es beispielsweise möglich, dass die Inhalte der Webseite nicht nützlich oder relevant genug sind, um über Google gefunden zu werden.

Probleme im Zusammenhang mit Googlebot

Googlebot verwendet bestimmte IP-Adressen, die sich von Zeit zu Zeit ändern. Am einfachsten können Zugriffe durch den Webcrawler Googlebot anhand des User-Agents ermittelt werden, der in diesem Fall „Googlebot“ lautet. Ob ein auf den Server zugreifender Bot tatsächlich der Googlebot ist, kann des Weiteren mit einer umgekehrten DNS-Suche ermittelt werden.

Zwar werden die in der Datei „robots.txt“ enthaltenen Anweisungen sowohl von Googlebot als auch von anderen seriösen Suchmaschinen bzw. deren Bots akzeptiert, jedoch gilt dies für einige Spammer und bösartige Nutzer nicht. In einem solchen Fall sollte das Problem Google gemeldet werden.

Weiterhin gibt es von Google weitere User-Agents, zum Beispiel den Feedfetcher, wobei in diesem Fall als User-Agent „Feedfetcher-Google“ angegeben ist. Feedfetcher-Anfragen werden jedoch nicht von Webcrawlern durchgeführt, sondern sind auf explizite Aktionen menschlicher Nutzer zurückzuführen. Werden also Feeds dem Google Reader oder der Startseite von Google hinzugefügt, ist ein Befolgen der in „robots.txt“ enthaltenen Anweisungen nicht zu erwarten.

Allerdings kann der Server so konfiguriert werden, dass das Durchsuchen der entsprechenden Webseite durch den Google-Feedfetcher unterbunden wird. In diesem Fall wird dem User-Agent Feedfetcher eine Fehlermeldung zurückgegeben. Die dafür vorgesehenen Fehlercodes können 404 oder 410 lauten.

Zusammenfassung

Googlebot ist ein Webcrawler-Programm von Google, das Internetinhalte findet und sie über die Google-Suche zugänglich macht.

Der Crawling-Prozess von Googlebot entdeckt neue oder aktualisierte Webseiten. Er verwendet eine Liste von URLs, die auf Basis früherer Crawls und ergänzender XML-Sitemap-Daten erstellt wurde. Wenn Webseiten verändert werden oder Links ablaufen, aktualisiert der Googlebot den Google-Index entsprechend.

Falls Webmaster nicht möchten, dass der Googlebot bestimmte Seiten crawlt, können sie die Datei „robots.txt“ verwenden. Es kann jedoch eine Weile dauern, bis solche Änderungen vom Googlebot wahrgenommen werden. Tools ermöglichen die Überprüfung, wie der Webcrawler eine Webseite sieht.

Wenn eine Seite nicht von Google angezeigt wird, kann dies darauf hinweisen, dass ihre Inhalte für Google nicht relevant sind.

Während Googlebot und andere seriöse Bots die „robots.txt“-Anweisungen beachten, tun dies einige Spammer nicht. Außerdem verwendet Google weitere User-Agents wie den Feedfetcher, der nicht crawlt, sondern auf menschliche Aktionen reagiert.

Häufige Fragen und Antworten

Was ist der Googlebot?

Der Googlebot ist ein von der Suchmaschine Google verwendetes Programm, das als Webcrawler Bilder und Texte im Internet aufspürt und diese Dokumente über die Bild- und Textsuche von Google für die Internetnutzer auffindbar macht.

Wie arbeitet der Googlebot?

Der Googlebot ist ein Webcrawler-Programm, das das Internet nach neuen oder aktualisierten Webseiten durchsucht. Er verwendet eine Liste von URLs, die auf Basis früherer Crawls und ergänzender XML-Sitemap-Daten erstellt wurde. Durch das Durchsuchen der Websites aktualisiert der Googlebot den Google-Index entsprechend.

Wie kann ich eine Webseite für den Googlebot sperren?

Um zu verhindern, dass der Googlebot bestimmte Seiten crawlt, kann die Datei „robots.txt“ verwendet werden. In dieser Datei können Verzeichnisse und Dateien auf dem Server gesperrt werden. Es kann jedoch einige Zeit dauern, bis der Googlebot diese Änderungen wahrnimmt.

Wie stellen Sie sicher, dass der Googlebot Ihre Webseite durchsucht?

Eine Webseite wird vom Googlebot über die Links zu dieser Webseite gefunden. Um sicherzustellen, dass eine Internetseite durchsucht wird, können die von Google bereitgestellten Webmaster-Tools genutzt werden. Auf der Crawling-Fehler-Seite dieser Tools können alle Probleme, die Googlebot beim Durchsuchen der Webseite feststellt, angezeigt werden.

Welche Probleme können im Zusammenhang mit dem Googlebot auftreten?

Es können verschiedene Probleme im Zusammenhang mit dem Googlebot auftreten. Zum Beispiel können bestimmte IP-Adressen des Googlebots sich von Zeit zu Zeit ändern. Außerdem können Spammer und bösartige Nutzer die in der Datei „robots.txt“ enthaltenen Anweisungen missachten. Für solche Probleme sollte Google kontaktiert werden.