Der Hilltop-Algorithmus ist ein Berechnungsverfahren, das dazu dient, innerhalb einer Reihe von miteinander verknüpften Dokumenten diejenigen zu bestimmen, die zu einem festgelegten Suchwort die größte Relevanz aufweisen. Der Algorithmus wurde an der Universität Toronto entwickelt und stellt eine wichtige Neuerung im Bereich der Internet-Suche dar, nachdem Google 2003 das Patent für den Hilltop-Algorithmus erwarb.
Die beiden Wissenschaftler Krishna Barat und George Mihaila von der Universität Toronto haben den Algorithmus im besonderen Hinblick auf die immer wichtiger werdende Suche im Internet nach möglichst relevanten Seiten zu einem Suchwort entwickelt. Inwieweit Google auch auf den Hilltop-Algorithmus bei seiner Suche zurückgreift, kann nicht eindeutig bestimmt werden, man geht jedoch davon aus, dass der Hilltop-Algorithmus heute bereits eine wichtige Rolle bei der Ermittlung der Suchergebnisse spielt.
Grundlegende Berechnungsvorgänge beim Hilltop-Algorithmus
Die englische Bezeichnung „hilltop“ (deutsch: Hügelspitze) umschreibt die zugrunde liegende Berechnungsmethode beim Hilltop-Algorithmus recht treffend, dass nämlich rechentechnisch zuerst einmal von Seiten ausgegangen wird, die den größten Überblick über ein Themengebiet geben. Das ist mit dem Wort „hilltop“ gemeint, weil analog auch von einer Hügelspitze aus der Überblick zunächst einmal am größten ist.
In der Praxis bedeutet das, dass durch den Hilltop-Algorithmus im ersten Schritt die sogenannten Experten Seiten ermittelt werden. Diese Seiten haben sehr viele Verbindungen zu unabhängigen Seiten des gleichen Themas. Die Ermittlung dieser Seiten kann sehr einfach und automatisch im Hintergrund erfolgen. Daneben lässt sich die – meist recht geringe Zahl – von Experten Seiten auch gut aktualisieren.
Die Suche nach Autoritäts-Seiten – also hoch relevanten Seiten zum festgelegten Suchwort – gestaltet sich damit im Anschluss wesentlich einfacher, da definitionsgemäß nur solche Seiten als Autoritäts-Seiten zugelassen werden, auf die mindestens zwei voneinander unabhängige Experten Seiten verweisen.
Rolle der Experten Seiten beim Hilltop-Algorithmus
Durch die Experten Seiten werden praktisch alle relevanten Dokumente zu einem Thema bereits zusammengefasst. Eine Reihung nach Relevanz kann dann annähernd an die Zahl der auf eine Seite verweisenden Experten Seiten erfolgen, hier wird die Berechnungsmethode allerdings ungenau, da hoch relevante Seiten unter Umständen von einigen Experten Seiten nicht erfasst oder berücksichtigt werden, was nicht zwangsläufig etwas über den Grad ihrer Relevanz aussagt.
Für ein tatsächliches Ranking von Seiten ist der Hilltop-Algorithmus also nur bedingt bis gar nicht geeignet, er kann aber andere Algorithmen unterstützen, indem er den Rechenaufwand verringert, der am Anfang der Suche über den gesamten Suchindex hinweg entsteht.
Um das Berechnungsergebnis in der Praxis nicht zu verfälschen, müssen außerdem entsprechende Prüfungen über die tatsächliche Unabhängigkeit der Seiten voneinander erfolgen – so muss beispielsweise sichergestellt sein, dass die Autoritäts-Seiten nicht von Experten Seiten abhängige Seiten sind, sondern tatsächlich eigenständige Seiten. Dafür sind zusätzliche Berechnungen notwendig.
Hilltop-Algorithmus als Waffe gegen Spam
Da Suchmaschinen – anders als natürliche Leser – nur Zeichenketten wahrnehmen, können sie Inhalte nicht nach ihrer echten Relevanz überprüfen, sondern müssen auf andere Methoden ausweichen. Laienhafte, oberflächliche und schlicht unzureichende Inhalte können von Suchmaschinen durch den Hilltop-Algorithmus aber dadurch ausgeschlossen werden, wenn die Tatsache in Betracht gezogen wird, dass auf solche qualitativ minderwertigen Seiten in der Regel nicht von einer hohen Zahl von Experten Seiten verlinkt wird.
Sobald also die Qualitätsbestimmung der Experten Seiten ausreichend treffend ist, fallen Spam Seiten und Seiten mit minderwertigen Inhalten praktisch automatisch durch das Raster beim Hilltop-Algorithmus und haben im Allgemeinen keine Möglichkeit, als Autoritäts-Seiten eingestuft zu werden, ihre Relevanz wird also praktisch bereits automatisch als gering bewertet.
DMOZ Seiteneinträge bei der Bestimmung von Experten Seiten
Kritisch für die Qualität der gesamten Suche ist hier also die Bewertung als Experten Seiten. Insgesamt sind im Web weniger als 2% tatsächlich als Experten Seiten eingestuft – häufig sind es die Seiten aus dem DMOZ Verzeichnis oder aus entsprechend qualitativ hochwertigen, manuell erstellten Webkatalogen. Hinter dem DMOZ verbirgt sich das Open Directory Project, das qualitativ hochwertige und sehr relevante Webseiten listet und von freiwilligen Redakteuren betreut wird.
Das Motto des Projekts, dessen Daten frei und kostenlos zugänglich sind, lautet „Humans Do It Better“. Die Leistungen des Projekts sind durchaus ansehnlich, über 7.000 Autoren verfassen Kurzkommentare zu neuen Webseiten mit hoher Relevanz, die Einträge liegen insgesamt bei rund 4,7 Millionen, davon rund eine halbe Million für den deutschsprachigen Bereich. Jede im DMOZ eingetragene Seite wurde manuell von einem Redakteur geprüft. Insgesamt werden die Seiten in mehr als einer Million unterschiedlicher Kategorien abgelegt.
Der Name DMOZ leitet sich übrigens aus der ersten Webadresse des Projekts her – dmoz.org, was auf den ursprünglichen Namen „Directory Mozilla“ verwies. DMOZ Seiten sind zwar nicht die einzige Quelle für die Bestimmung von Experten-Seiten, aber eine durchwegs immer noch sehr wichtige.
Technische Verfahren für die Unabhängigkeitsprüfung von Seiten
Um zu prüfen, ob Autoritäts-Seiten von den auf sie verlinkenden Experten Seiten tatsächlich unabhängig sind, werden einige recht einfache Kriterien verwendet, die auch rechnerisch sehr leicht zu prüfen sind. Erst einmal muss der namensgebende Teil der Domainnamen sich komplett unterscheiden, darüber hinaus müssen die IP-Adressen in einem unterschiedlichen C-Block liegen, was sich daran erkennen lässt, dass die ersten drei Blöcke der IP-Adresse jeweils unterschiedlich sind.
Rechnerisch kommen dann auch noch bestimmte Ausschlussverfahren zum Einsatz, die bei eng miteinander verknüpften Seiten auch mögliche wahrscheinliche Querverbindungen zwischen den Seiten berücksichtigen und diese dann nicht als unabhängige Seiten werten. Für den Status einer Expertenseite muss darüber hinaus auch der Schwellenwert von mindestens fünf Verweisen auf unabhängige Seiten im Themenbereich überschritten sein, Hauptthemengebiete werden zusätzlich berücksichtigt.
Sind alle diese Kriterien erfüllt, werden den Experten Seiten indiziert. Das erfolgt beim Hilltop-Algorithmus mit einem speziellen, invertierten Index. Alle Phrasen, die das Suchwort enthalten, werden aufgelistet, daneben Überschriften, Titel und Ankertexte der Experten Seiten. Danach werden rechnerisch die semantischen Bezüge zwischen den einzelnen Elementen und Keyword-Kombinationen und den Verweisen geprüft. Diese Prüfungsverfahren sind äußerst komplex und vielschichtig, sie stellen jedenfalls aber einen sehr wichtigen Teil des gesamten Konzepts dar.
Unterschiede zwischen Hilltop-Algorithmus und PageRank Algorithmus
Im Hinblick auf die Berechnungsverfahren gibt es zwischen dem Hilltop-Algorithmus und dem PageRank Algorithmus wichtige Unterschiede. Insgesamt gilt der Hilltop-Algorithmus als exakter, insbesondere dort, wo es um allgemeine Suchanfragen in großer Häufigkeit zu relativ allgemeinen Suchbegriffen geht. Durch die Basierung auf unabhängigen Experten Seiten sind die Suchergebnisse auch besser abgesichert und können weniger leicht zufällig verfälscht werden.
An seine Grenzen stößt der Hilltop-Algorithmus allerdings immer dort, wo es um hoch spezielle Suchanfragen geht, zu denen es nur vergleichsweise wenige Seiten im Netz gibt. Der PageRank Algorithmus hingegen legt vor allem die Linkpopularität einer Seite oder eines Dokuments fest, nach den neueren Berechnungsmethoden auch eines gesamten Blocks – das heißt einer gesamten Domain oder eines noch weiter gefassten Bereichs, um die Rechenleistung beim Ermitteln des PageRank zu verringern.
Das hinter dem PageRank stehende „Zufallssurfer-Modell“ erweist sich in vielen Bereichen zwar als zutreffend, allerdings – und das ist die größte Problematik beim PageRank Algorithmus – spiegelt der PageRank lediglich das Interesse anderer Webseitenbetreiber und nicht das Interesse der User und die Qualität der Seite wider. Dieser Effekt relativiert sich zwar durch die vielen Anpassungen der PageRank Berechnung seit 2003, und den Einsatz einiger zusätzlicher Algorithmen wie Hub and Authorities oder TrustRank, bleibt aber grundlegend bestehen.
Der Hilltop-Algorithmus mit seinem auf unabhängigen Experten beruhenden Konzept bietet dagegen eine vor allem auf den User und seinen Nutzen fokussierte Bewertung, die auch weniger leicht unterlaufen werden kann.
Zusammenfassung
Der Hilltop-Algorithmus ist ein Verfahren zur Bestimmung der relevantesten Dokumente für ein bestimmtes Suchwort innerhalb eines Netzwerks von miteinander verknüpften Dokumenten. Entwickelt von den Forschern Krishna Barat und George Mihaila an der Universität Toronto, wurde es später von Google patentiert. Dieser Algorithmus identifiziert zuerst sogenannte „Experten Seiten“, die einen umfassenden Überblick über ein bestimmtes Thema bieten. Anschließend werden „Autoritäts-Seiten“ ermittelt, die von mindestens zwei unabhängigen Experten Seiten empfohlen werden.
Eine Besonderheit des Hilltop-Algorithmus ist seine Fähigkeit, Spam und minderwertige Inhalte effektiv herauszufiltern, da solche Seiten selten von Experten Seiten verlinkt werden. Dabei spielen Seiten aus dem DMOZ Verzeichnis eine signifikante Rolle als Experten Seiten. Um die Unabhängigkeit der Seiten zu überprüfen, werden technische Kriterien wie unterschiedliche Domainnamen und IP-Adress-Blöcke herangezogen.
Im Vergleich zum PageRank Algorithmus gilt der Hilltop-Algorithmus als präziser, insbesondere bei allgemeinen Suchanfragen. Während PageRank die Linkpopularität einer Seite misst, fokussiert der Hilltop-Algorithmus mehr auf die tatsächliche Relevanz und den Nutzen für den Benutzer, indem er sich auf unabhängige Experten stützt.
Häufige Fragen und Antworten
Was ist der Hilltop-Algorithmus?
Der Hilltop-Algorithmus ist ein Berechnungsverfahren, das verwendet wird, um die relevantesten Dokumente für eine bestimmte Suchanfrage zu bestimmen. Entwickelt von Forschern an der Universität Toronto und später von Google patentiert, identifiziert der Algorithmus sogenannte „Experten Seiten“, die einen umfassenden Überblick über das Thema bieten. Anschließend werden „Autoritäts-Seiten“ ermittelt, die von mindestens zwei unabhängigen Experten Seiten empfohlen werden.
Welche Rolle spielen Experten Seiten beim Hilltop-Algorithmus?
Experten Seiten spielen eine entscheidende Rolle beim Hilltop-Algorithmus. Sie stellen die Grundlage für die Identifizierung von relevanten Dokumenten dar. Experten Seiten sind hochvernetzt und haben viele Verbindungen zu unabhängigen Seiten desselben Themas. Sie geben einen umfassenden Überblick und dienen als Empfehlungen für Autoritäts-Seiten. Der Hilltop-Algorithmus nutzt diese Experten Seiten, um die relevantesten Suchergebnisse zu bestimmen.
Wie hilft der Hilltop-Algorithmus bei der Bekämpfung von Spam?
Der Hilltop-Algorithmus trägt dazu bei, Spam und minderwertige Inhalte effektiv zu filtern. Da solche Seiten selten von Experten Seiten verlinkt werden, können sie nicht als Autoritäts-Seiten eingestuft und ihre Relevanz automatisch als gering bewertet werden. Der Hilltop-Algorithmus identifiziert hochwertige Seiten, die auf unabhängige Experten Seiten verweisen, und berücksichtigt diese bei der Bestimmung der Suchergebnisse.