Für die Implementierung des PageRank ist
von zentraler Bedeutung, auf welche Art und Weise der PageRank
in die generelle Bewertung von Webseiten durch die Suchmaschine
Google einfließt. Das Verfahren wurde von Lawrence Page und
Sergey Brin mehrfach in ihren Veröffentlichungen beschrieben. Ursprünglich
basierte die Seitenbewertung durch Google auf drei Faktoren:
Seitenspezifische Faktoren
Ankertext eingehender Links
PageRank
Zu den seitenspezifischen Faktoren zählen neben den konkreten Textinhalten
etwa auch der Inhalt des Title-Tags und die URL einer Seite. Es
ist mehr als wahrscheinlich, dass seit der Veröffentlichung dieser
Punkte weitere Faktoren hinzugekommen sind. Dies soll an dieser
Stelle jedoch nicht interessieren.
Bei Suchanfragen wird aus den seitenspezifischen Faktoren und den
Ankertexten eingehender Links für den Suchbegriff eine nach Position
und Grad der Hervorhebung gewichteter IR-Wert berechnet. Die Bewertung
für die Relevanz einer Webseite für eine konkrete Suchanfrage wird
nun mit dem PageRank als Indikator für die ganz allgemeine
Bedeutsamkeit der Webseite kombiniert. Dieses Kombinieren erfolgt
in multiplikativer Form. Dass hier kein additives Verfahren eingesetzt
wird ist unmittelbar einleuchtend, da ansonsten Seiten mit einem
sehr hohen PageRank auch auf Suchanfragen hin gefunden werden
könnten, obwohl sie in keinerlei Zusammenhang zum gesuchten Begriff
stehen.
Insbesondere bei aus mehreren Begriffen bestehenden Suchanfragen
zeigt sich ein deutlich größerer Einfluss der inhaltsspezifischen
Bewertungskomponenten. Der Einfluss des PageRank hingegen
wird eher bei unspezifischen, aus lediglich einem Suchbegriff bestehenden
Anfragen deutlich. Gerade für Mehr-Begriffs-Anfragen ist es möglich,
mit den klassischen Mitteln der Suchmaschinen-Optimierung Listungen
vor Seiten zu erlangen, die einen weitaus höheren PageRank-Wert
inne haben.
Bei der Optimierung für Suchbegriffe, für die in den Suchmaschinen
ein großer Wettbewerb herrscht, ist ein hoher PageRank-Wert
unerlässlich für eine hohe Suchmaschinen-Position, selbst wenn die
Seite selbst den klassischen Kriterien der Suchmaschinen-Optimierung
folgt. Dies liegt darin begründet, dass die Wertung des zusätzlichen
Vorkommens eines Suchbegriffs innerhalb eines Dokuments sowie in
den Ankertexten von eingehenden Links mit der Häufigkeit des Vorkommens
abnimmt, um Spam durch oftmalige Keyword-Wiederholungen zu vermeiden.
Damit sind die Möglichkeiten zur Seitenoptimierung im klassischen
Sinne beschränkt, und bei hohem Wettbewerb in Suchmaschinen für
einen Suchbegriff wird der PageRank zum ausschlaggenden Faktor.
Die PageRank Anzeige der Google
Toolbar:
Einen großen Bekanntheitsgrad erlangte der PageRank
durch seine Anzeige in der Google Toolbar. Die Google
Toolbar ist ein Browser-Plug-In für den Microsoft Internet Explorer,
das von der Google Website herunter geladen werden kann und
zahlreiche Erleichterungen für die Google-Suche bereithält.
Die
Google Toolbar zeigt den PageRank einer Seite auf einer
Skala von 0 bis 10 an. Zunächst ist der PageRank an der Breite
des grünen Balkens in der Anzeige ersichtlich. Fährt der Benutzer
mit der Maus über die Anzeige, gibt die Toolbar darüberhinaus den
Wert des Toolbar-PageRank an.
Vorsicht: Die PageRank-Anzeige zählt zu den "Advanced Features"
der Google Toolbar. Sobald diese "Advanced Features" aktiviert
sind, sammelt Google über die Toolbar Daten über das Benutzerverhalten.
Außerdem führt die Toolbar selbstständig Updates durch, ohne dass
der Benutzer über das Herunterladen der neuen Version informiert
wird. Dies bedeutet letztlich, dass Google Zugriff auf die
Festplatte des Benutzers hat.
Der tatsächliche PageRank, der für eine Seite
theoretisch maximal einen Wert von dN+(1-d) annehmen kann, wobei
N die Anzahl aller Seiten des Webs ist und d üblicherweise auf 0.85
gesetzt wird, muss für die Anzeige in der Google Toolbar skaliert
werden. Es wird im Allgemeinen davon ausgegangen, dass die Skalierung
nicht linear sondern logarithmisch erfolgt. Bei einem Dämpfungsfaktor
von 0.85 und einem damit verbundenen minimalen PageRank von
0.15 sowie einer angenommenen logarithmischen Basis von 6 ergäbe
sich das folgende Bild für die Skalierung:
Toolbar-PageRank
Tatsächlicher PageRank
0/10
0.15
-
0.9
1/10
0.9
-
5.4
2/10
5.4
-
32.4
3/10
32.4
-
194.4
4/10
194.4
-
1,166.4
5/10
1,166.4
-
6,998.4
6/10
6,998.4
-
41,990.4
7/10
41,990.4
-
251,942.4
8/10
251,942.4
-
1,511,654.4
9/10
1,511,654.4
-
9,069,926.4
10/10
9,069,926.4
-
0.85 Χ N + 0.15
Ob tatsächlich eine mathematisch strikte logarithmische
Skalierung erfolgt ist natürlich ungewiss. Wahrscheinlich erfolgt
eine manuelle Skalierung, die einem logarithmischen Schema folgt,
damit Google die volle Kontrolle darüber behält, wie viele
Seiten einen bestimmten Toolbar-PageRank inne haben. Diesem
Schema dürfte allerdings eine logarithmische Basis von 6 bis 7 zu
Grunde liegen, was sich etwa ansatzweise aus der Anzahl der von
Google angezeigten eingehenden Links mit einem Toolbar-PageRank
größer 4 für Seiten mit einem sehr hohen Toolbar-Pagerank
herleiten lässt.
Die Datenkommunikation der Toolbar:
Auch Webmaster, die aufgrund von Sicherheitsbedenken
die Google Toolbar oder auch den Internet Explorer nicht dauerhaft
nutzen möchten, haben eine Möglichkeit zum Einblick in die PageRank-Werte
ihrer Seiten. Google übermittelt den PageRank in einfachen
Textdateien an die Toolbar. Früher geschah dies per XML. Der Wechsel
zu Textdateien fand im August 2002 statt.
Die PageRank-Textdateien können direkt von
der Domain www.google.com abgerufen werden. In ihrer Grundform sehen
die URLs der Dateien folgendermaßen aus (ohne Zeilenumbrüche):
Die PageRank-Dateien bestehen aus einer Zeile.
Der PageRank-Wert ist die letzte Ziffer in dieser Zeile.
Die oben in der URL dargestellten Parameter sind
unerlässlich für die Anzeige der PageRank-Dateien im Browser.
So identifiziert sich mit dem Wert "navclient-auto" für den Parameter
"client" die Toolbar; mit dem Parameter "q" wird die abgefragte
URL übermittelt. Der Wert "Rank" für den Parameter "features" legt
fest, dass die PageRank-Dateien abgerufen werden. Wird dieser
Parameter weggelassen, werden auch weiterhin XML-Dateien übermittelt.
Der Parameter "ch" wiederum übergibt eine Prüfsumme für die URL,
wobei sich diese Prüfsumme im Zeitablauf für einzelne URLs lediglich
bei Updates der Toolbar ändern kann.
Um die Prüfsummen einzelner URLs herauszufinden
ist es damit erforderlich, die Toolbar zumindest einmal zu installieren.
Hierbei wird dann vielerorts der Einsatz von Packet Sniffern, lokalen
Proxies und ähnlichem empfohlen, um die Kommunikation zwischen Toolbar
und Google aufzuzeichnen. Dies ist allerdings nicht zwingend
erforderlich, da die PageRank-Dateien vom Internet Explorer
gecached werden und somit die Prüfsummen im Ordner Temporary Internet
Files eingesehen werden können. Die PageRank-Dateien können
hiermit dann auch z.B. in anderen Browsern als dem Internet Explorer
angezeigt werden, ohne dass Googles 36-Jahres-Cookies akzeptiert
werden müssen.
Da die PageRank-Dateien im Browser-Cache
gespeichert werden und somit offen einsehbar sind, und sofern eine
Abfrage nicht automatisiert erfolgt, sollte dies keine Verletzung
von Googles Dienstleistungsbedingungen darstellen. Es ist allerdings
Vorsicht geboten. Die Toolbar übermittelt einen eigenen User-Agent
an Google. Es ist:
Mozilla/4.0 (compatible; GoogleToolbar 1.1.60-deleon;
OS SE 4.10)
Hierbei ist 1.1.60-deleon eine Toolbar-Version,
die sich natürlich ändern kann, und OS das Betriebssystem des jeweils
eingesetzten Rechners. Google kann also nachprüfen, ob eine
direkte Anfrage über den Browser erfolgt, sofern kein Proxy zwischengeschaltet
und der User-Agent entsprechend modifiziert wird.
Beim Blick in den Cache des IE wird man in der
Regel feststellen, dass die PageRank-Dateien nicht von der
Domain www.google.com, sondern von IPs wie z.B. 216.239.33.102 abgerufen
werden. Ebenso enthalten die URLs häufig einen weiteren Parameter
"failedip" mit Werten wie z.B. "216.239.35.102;1111". Die IPs sind
jeweils einem der derzeit sieben sich im Einsatz befindlichen Rechenzentren
Googles zugeordnet. Wozu der Parameter "failedip" tatsächlich genutzt
wird, ist unklar. Hintergrund der unmittelbaren Abfrage der PageRank-Dateien
bei einzelnen IPs ist wohl der Versuch, die PageRank-Anzeige
insbesondere in den Zeiten des "Google Dance" besser zu steuern.
Die PageRank Anzeige der Google
Directory:
Denjenigen, denen der Abruf der PageRank-Dateien
zu kompliziert ist, bleibt schließlich mit der Google Directory
(directory.google.com) noch eine eingeschränkte Möglichkeit, etwas
über den PageRank ihrer Site zu erfahren.
Bei
der Google Directory handelt es sich um einen Dump des Open Directory
Projects (dmoz.org), der neben den Seiteneinträgen ähnlich der Google
Toolbar den skalierten PageRank für die in das ODP eingetragene
Seite in Balkenform anzeigt.
Allerdings erfolgt die PageRank-Anzeige in der Google-Directory
auf einer Skala von 1 bis 7. Der exakte Wert wird nicht angezeigt,
kann aber über die zweigeteilte Balkengrafik bzw. die Breite von
deren Einzelgrafiken bestimmt werden, falls der Betrachter sich
beim einfachen Augenschein unsicher ist.
Durch den Vergleich des Toolbar-PageRanks mit dem
Directory-PageRank kann vom tatsächlichem PageRank von Seiten, die
in das ODP eingetragen sind, ein etwas genauerer Eindruck gewonnen
werden. Dieser Zusammenhang wurde zuerst von Chris Raimondi (www.searchnerd.com/pagerank)
aufgezeigt.
Insbesondere für Seiten mit einem Toolbar-PageRank
von 5 oder 6 ergibt sich hier die Möglichkeit der Einschätzung,
ob sich die Seite eher am unteren oder am oberen Ende eines Bereichs
der Toolbar-Skalierung befindet. Es sei an dieser Stelle angemerkt,
dass für die Darstellung des Vergleichs der beiden PageRank-Anzeigen
der Toolbar-PageRank von 0 nicht berücksichtigt wurde. Dass
dies sinnvoll ist, kann anhand von Seiten mit einem Directory-PageRank
von 3 nachvollzogen werden. Hier ist allerdings zu berücksichtigen,
dass zur άberprüfung eine Seite der Google Directory mit einem
Toolbar-PageRank von maximal 4 ausgewählt werden sollte, da
sich sonst in der Regel keine von dort verlinkten Seiten mit einem
Toolbar-PageRank von 3 finden lassen.