...die Suchmaschine für Teneriffa Informationen
Im Verlauf der letzten Jahre hat sich Google weltweit zur
bedeutendsten Suchmaschine entwickelt. Maßgebend verantworlich
hierfür war neben einer hohen Performance und einer großen
Benutzerfreundlichkeit vor allem die anderen Suchmaschinen
teilweise weit überlegene Qualität der Suchergebnisse. Diese
Qualität der Suchergebnisse beruht ganz wesentlich auf dem
PageRank-Verfahren.
An dieser Stelle soll ein möglichst breiter Überblick über alle
Aspekte des PageRank-Verfahrens wiedergegeben werden. Unser
Überblick stützt sich dabei im Kern auf Veröffentlichungen
der Google-Gründer Lawrence Page und Sergey Brin aus ihrer
Zeit als Graduiertenstudenten an der Stanford University.
Vielerorts wird angeführt, dass seit den Forschungsarbeiten am
PageRank-Verfahren vor allem angesichts der Dynamik des Internets
zu viel Zeit vergangen ist, als dass die veröffentlichten Dokumente
immer noch für die Bewertungsmethodik der Suchmaschine Google maßgebend
sind. Es soll auch nicht bezweifelt werden, dass im Verlauf der
letzten Jahre mit großer Wahrscheinlichkeit zahlreiche Änderungen,
Anpassungen und Modifikationen am ursprünglichen PageRank-Algorithmus
stattgefunden haben. Allerdings war gerade das PageRank-Verfahren
ein wichtiger Faktor für den Erfolg der Suchmaschine Google, womit
zumindest das Konzept des PageRank-Verfahrens immer noch
grundlegend sein sollte.
Das PageRank-Konzept
Im Zuge der Entwicklung des World Wide Webs wurden verschiedene
Verfahren zur Bewertung von Webseiten mit dem Ziel der
Relevanzbeurteilung durch Suchmaschinen entwickelt. Ein aus
unmittelbar einleuchtenden Gründen auch heute immer noch von
praktisch allen Suchmaschinen genutzter Maßstab ist das Vorkommen
eines Suchbegriffs in den Inhalten einer Webseite. Dieses
Vorkommen wird nach den verschiedensten Kriterien wie etwa
der relativen Häufigkeit des Vorkommens (der sog. Keyword-Dichte),
den Stellen des Vorkommens des Suchbegriffs oder auch der
Exponiertheit des Suchbegriffs im Dokument gewichtet.
Aus der Absicht, Suchmaschinen resistent gegen Webseiten zu machen,
die auf der Basis von Analysen der inhaltsspezifischen Bewertungskriterien
generiert wurden (Doorway Pages), entstand das Konzept der Link-Popularität.
Dabei fließt die Anzahl der eingehenden Links für ein Dokument als
ein grundsätzliches Kriterium für die Bedeutung einer Webseite in
die Relevanzbeurteilung ein. Diesem Ansatz liegt zu Grunde, dass ein
Dokument um so wichtiger ist, je häufiger es von anderen verlinkt
wird. Hierdurch wird weitestgehend verhindert, dass automatisch
generierte "suchmaschinenoptimierte" Webseiten ohne jeglich Einbindung
in das WWW oben in den Suchmaschinenergebnissen erscheinen. Es zeigte
sich allerdings, dass auch das Konzept der Link-Popularität schnell
von Webmastern antizipiert werden konnte, indem sie von ebenso
unbedeutenden, automatisch generierten Seiten eingehende Links
für Doorway Pages schufen.
Im Gegensatz zum Konzept der Link-Popularität nutzt das
PageRank-Konzept nicht einfach die absolute Anzahl eingehender
Links für die Beurteilung der Bedeutung einer Webseite.
Die Argumentation der Google-Gründer gegen das Konzept der
einfachen Link-Popularität war, dass ein Dokument zwar bedeutsam
ist, wenn es von vielen anderen verlinkt wird, nicht jedes
verlinkende Dokument ist jedoch gleichwertig. Vielmehr sollte
einem Dokument - völlig unabhängig von seinen Inhalten -
ein hoher Rang zugewiesen werden, wenn es von anderen
bedeutenden Dokumenten verlinkt wird.
Die Bedeutsamkeit eines Dokuments bestimmt sich im Rahmen des
PageRank-Konzepts also aus der Bedeutsamkeit der darauf verlinkenden
Dokumente. Deren Rang wiederum bestimmt sich ebenfalls aus dem Rang
verlinkender Dokumente. Die Bedeutsamkeit eines Dokuments definiert
sich stets rekursiv aus der Bedeutsamkeit anderer Dokumente. Da -
wenn auch über viele hintereinanderfolgende Links hinweg - der Rang
eines jeden Dokuments eine Auswirkung auf den Rang eines jeden anderen
hat, beruht das PageRank-Konzept letztlich auf der Linkstruktur des
gesamten Webs. Obwohl diese ganzheitliche Betrachtung des WWW es
nicht vermuten lässt, gelang es Page und Brin das PageRank-Konzept
mittels eines relativ trivialen Algorithmus umzusetzen.
|