Da das PageRank-Verfahren die Link-Struktur
des gesamten Webs abbildet, ist es unausweichlich, dass wenn eingehende
Links einen Einfluss auf den PageRank haben, das gleiche auch
für ausgehende Links gilt. Zur Darstellung der Effekte ausgehender
Links soll wieder ein kleines Beispiel dienen.
Betrachtet
wird ein Web aus zwei Websites, die jeweils zwei Seiten beinhalten.
Die eine Site besteht aus den Seiten A und B, die andere aus den
Seiten C und D. Die beiden Seiten einer jeden Site verlinken sich
jeweils gegeneinander. Es wird unmittelbar deutlich, dass jede der
Seiten einen ursprünglichen PageRank von 1 inne hat. Nun wird
Seite A ein externer Link auf Seite C hinzugefügt. Für den PageRank
der einzelnen Seiten ergeben sich bei einem angenommenen Dämpfungsfaktor
d von 0.75 die folgenden Gleichungen:
PR(A) = 0.25 + 0.75 PR(B)
PR(B) = 0.25 + 0.375 PR(A)
PR(C) = 0.25 + 0.75 PR(D) + 0.375 PR(A)
PR(D) = 0.25 + 0.75 PR(C)
Die Lösung dieses Gleichungssystems ergibt die
folgenden Werte:
PR(A) = 14/23
PR(B) = 11/23
und somit einen aufsummierten PageRank von 25/23 für die erste
Site,
PR(C) = 35/23
PR(D) = 32/23
und damit einen aufsummierten PageRank von 67/23 für die zweite
Site. Der aufsummierte PageRank beider Sites in Höhe von 92/23
= 4 bleibt also erhalten. Das Hinzufügen von Links hat also keinen
Einfluss auf den aufsummierten PageRank des Webs. Ferner ist
damit der Gewinn der verlinkten Site genauso groß wie der Verlust
der anderen.
Der tatsächliche Effekt
ausgehender Links:
Wie bereits gezeigt, ist der Gewinn eines geschlossenen
Systems auf das ein zusätzlicher Link gesetzt wird, gegeben durch:
(d / (1-d)) Χ (PR(X) / C(X))
wobei X die verlinkende Seite, PR(X) deren PageRank
und C(X) die Anzahl der ausgehenden Links von Seite X ist. Dieser
Wert beschreibt damit auch den PageRank-Verlust, der einem
vormals geschlossenen System daraus entsteht, dass einer Seite X
innerhalb dieses Systems ein ausgehender Link hinzugefügt wird.
Bedingung für die angegebene Formel ist, dass die
verlinkte Site nicht etwa direkt wieder auf die verlinkende Site
zurückverlinkt, da die verlinkende Site wieder einen Teil des verlorenen
PageRanks zurückgewinnen würde. Solange eine Rückverlinkung sich
über eine gar nicht so große Anzahl von Webseiten erstreckt, ist
dieser Effekt jedoch durch die Wirkungsweise des Dämpfungsfaktors
zu vernachlässigen. Ferner Bedingung für die Gültigkeit der Formel
ist, dass die verlinkende Site nicht bereits vorher ausgehende Links
besitzt. Sollte dies jedoch der Fall sein, vermindert sich die Höhe
des Verlustes der betrachteten Site, und gleichzeitig haben die
bereits verlinkten Webseiten einen entsprechenden Verminderung des
PageRank hinzunehmen.
Selbst wenn für eine tatsächlich existierende Website
die PageRank-Werte der einzelnen Webseiten bekannt wären,
könnte allerdings dennoch nicht ohne weiteres im Vorhinein ermittelt
werden, wie sehr das Hinzufügen eines externen Links den PageRank
der einzelnen Seiten vermindert, da die oben genannten Formel den
Status nach der Verlinkung betrachtet.
Intuitive Begründung für
den Effekt ausgehender Links:
Intuitiv lässt sich der Verlust von PageRank
für die eigenen Seiten damit erklären, dass der Zufalls-Surfer aus
dem Random Surfer Modell durch das Hinzufügen eines externen Links
mit einer geringeren Wahrscheinlichkeit einen Link auf eine der
internen Seiten verfolgt. Damit sinkt in der Folge auch die Wahrscheinlichkeit,
mit der sich der Surfer auf einer derjenigen Seiten aufhält, die
wiederum auf diejenige Seite verlinken, der der externe Link hinzugefügt
wurde, womit auch deren PageRank sinken muss.
Es bleibt letztlich festzuhalten, dass ausgehende
externe Links den aufsummierten PageRank aller Webseiten einer
Website und gegebenenfalls auch den PageRank jeder einzelnen
Seite einer Site vermindern. Da jedoch die Verlinkung zwischen Websites
gerade die Grundlage des PageRank-Verfahrens darstellt und
für sein Funktionieren unabdingbar ist, besteht durchaus die Möglichkeit,
dass ausgehende Links an einer anderen Stelle innerhalb der Bewertung
von Webseiten durch die Suchmaschine Google positiven Einfluss
nehmen. Schließlich machen gerade auch relevante ausgehende Links
die Qualität einer Website aus, und Webmaster, die Links auf andere
Websites setzen, beziehen gewissermaßen deren Content in das eigene
Web-Angebot mit ein.
Dangling Links:
Ein nicht ganz unwichtiger Aspekt ausgehender Links
ist das Fehlen ausgehender Links. Sobald einzelne Webseiten keine
ausgehenden Links aufweisen, versickert der PageRank gewissermaßen
an diesen Stellen. Lawrence Page und Sergey Brin bezeichnen Verweise
auf derartige Seiten als "Dangling Links".
Die
Auswirkungen von Dangling Links sollen anhand eines kleinen Beispiels
veranschaulicht werden. Wir betrachten eine Website die aus aus
den drei Seiten A, B und C besteht.
Die Seiten A und B verlinken sich gegenseitig. Seite A verlinkt
zudem auf Seite C, die ihrerseits jedoch keine ausgehenden Links
aufweist.
Für den PageRank der einzelnen Seiten ergeben sich bei einem
angenommenen Dämpfungsfaktor d von 0.75 die folgenden Gleichungen:
PR(A) = 0.25 + 0.75 PR(B)
PR(B) = 0.25 + 0.375 PR(A)
PR(C) = 0.25 + 0.375 PR(A)
Die Lösung dieses Gleichungssystems ergibt die
folgenden PageRank-Werte:
PR(A) = 14/23
PR(B) = 11/23
PR(C) = 11/23
Damit beträgt der aufaddierte PageRank aller
Seiten 36/23, also nur etwas mehr als die Hälfte dessen, was zu
erwarten gewesen wäre, wenn Seite C auf eine der beiden Seiten A
oder B verlinkt hätte. Die Anzahl von Dangling Links ist nach Angaben
von Page und Brin nicht unbeträchtlich - und sei es, weil zahlreiche
verlinkte Seiten von Google nicht indexiert sind, etwa weil
die Indexierung per robots.txt verhindert wird. Hier ist zusätzlich
zu berücksichtigen, dass Google mittlerweile auch andere Dokumenten-Typen
als HTML wie zum Beispiel PDF oder Word Dateien indexiert, die keine
wirklichen ausgehenden Links haben. Dangling Links könnten also
nicht unbeträchtliche Folgen für das PageRank-Verfahren haben.
Um
die negativen Effekte von Dangling Links auszuschalten, werden diese
Angaben von Page und Brin zufolge vor der PageRank-Berechnung
aus der Datenbank unter Anpassung der jeweiligen Anzahl von ausgehenden
Links entfernt bis alle PageRank-Werte berechnet sind. Bei
der Entfernung von Dangling Links handelt es sich um einen iterativen
Vorgang, da das Entfernen wiederum neue Dangling Links erzeugen
kann, wie aus unserer einfachen Abbildung ersichtlich.
Nachdem die eigentliche PageRank-Berechnung abgeschlossen
ist, wird auch den Dangling Links PageRank - auf der Basis
der PageRank-Werte der auf sie verweisenden Seiten und unter
Rückgriff auf den PageRank-Algorithmus - zugewiesen. Dies
erfordert ebenso viele Iterationen wie bei der Entfernung der Dangling
Links. Um bei unserer Abbildung zu bleiben, könnte schließlich Seite
C vor Seite B bearbeitet werden. Seite B weist dann im ersten Bearbeitungsdurchlauf
bei der Bearbeitung von Seite C noch keinen PageRank auf,
womit Seite C wiederum ein PageRank von 0 zugewiesen würde.
Erst anschließend erhält Seite B ihren PageRank und im zweiten
Bearbeitungsschritt würde Seite C einen tatsächlichen PageRank
zugewiesen bekommen.
Für unser ursprüngliches Beispiel hat das Entfernen
von Seite C aus der Datenbank zur Folge, dass die Seiten A und B
nach Abschluss der Berechnungen jeweils einen PageRank von
1 erhalten. Seite C wird dann im Anschluss ein PageRank in
Höhe von 0.25 + 0.375 PR(A) = 0.625 zugewiesen. Damit enspricht
der aufaddierte PageRank zwar nicht der Anzahl der Seiten,
doch zumindest diejenigen Seiten mit ausgehenden Links nehmen keinen
Schaden durch Dangling Links.
Durch die Eliminierung von Dangling Links haben
diese also keinen negativen Einfluss auf den PageRank der
übrigen Seiten. Und wie bereits erwähnt, sind Verweise auf Dokumententypen,
die keine ausgehenden Links aufweisen können, grundsätzlich Dangling
Links. Damit wird auch unmittelbar deutlich, dass etwa Links auf
PDF-Dokumente den PageRank einer darauf verlinkenden Seite
bzw. Site nicht reduzieren können. PDF-Dokumente können also ein
sehr gutes Instrument der Suchmaschinenoptimierung für Google
sein.