Seit Ende des Jahres 2001 greift die Bestrafung
von Websites mit einem PageRank von 0 um sich. In einschlägigen
Suchmaschinenoptimierungs-Foren hat sich hierfür die Kurzform PR0
eingebürgert und diese soll auch hier benutzt werden. PR0 ist dadurch
gekennzeichnet, dass alle - oder zumindest viele - Seiten einer
Website in der Google Toolbar einen PageRank von 0 aufweisen,
obwohl diese mitunter qualitativ hochwertige eingehende Links aufweisen
können. Sie sind nicht vollkommen aus dem Index entfernt, erscheinen
aber in Suchergebnissen stets ganz unten und sind somit praktisch
nicht aufzufinden.
Einem
PageRank von 0 muss natürlich nicht immer eine Bestrafung
zu Grunde liegen. Vielen vermeintlich bestraften Seiten mangelt
es schlicht an eingehenden Links mit entsprechend hohem PageRank.
Wenn aber die Seiten einer Site, die vormals gut in den Suchergebnissen
platziert waren, plötzlich die gefürchtete weiße PageRank-Anzeige
aufweisen, und sich hinsichtlich der eingehenden Links der Site
nichts wesentliches verändert hat, liegt nach herrschender Meinung
eine Bestrafung durch Google vor.
άber die tatsächlichen Ursachen des PR0 kann natürlich
nur spekuliert werden. Da seitens Google mittlerweile nicht
mehr über technische Details und grundlegende Algorithmen publiziert
wird, sind schließlich erforderliche Hintergrundinformationen kaum
oder gar nicht verfügbar. Nichtsdestotrotz soll wegen der tiefgreifenden
Auswirkungen von PR0 ein theoretischer Ansatz hierfür geliefert
werden.
Hintergründe des PR0:
Suchmaschinen-Spam ist eines der großen Probleme
mit denen Suchmaschinen-Betreiber seit jeher zu kämpfen haben. Die
übliche Vorgehensweise gegen Spam war immer, dass - sobald Spam
identifiziert wird - die entsprechenden Domains oder auch gleich
IP-Adressen in der Regel für unbestimmte Zeit aus dem Index verbannt
werden.
Ein derartiges manuelles Entfernen von Websites
aus dem Index ist immer mit einem hohen Personalaufwand verbunden.
Dies läuft der stets von Google angestrebten hohen Skalierbarkeit
der Suchmaschine zuwider. Es ist hiermit also erforderlich, Spam
automatisiert zu filtern. Hierdurch entsteht jedoch die Gefahr,
auch viele unschuldige Webmaster zu bestrafen. Die eingesetzten
Filter dürfen also nur sehr sensibel auf potentiellen Spam reagieren.
Um dabei dennoch effektiv zu sein, kann es - wie auch im Rahmen
des PageRank-Verfahrens - sinnvoll sein, Linkstrukturen zu
analysieren.
Eine derartige Vorgehensweise wurde von einem Mitarbeiter
Google's, der unter dem Pseudonym GoogleGuy auftritt, mehrmals mehr
oder weniger eindeutig im Google-Forum von WebmasterWorld bestätigt.
Bekannt wurde sie als Bestrafung für das "linking to bad neighborhoods".
Im folgenden soll erörtert werden, wie eine derartige Identifikation
von Spam über die Analyse von Linkstrukturen realisiert werden kann.
Insbesondere soll dabei gezeigt werden, wie mittels solcher Verfahren
ganze Netzwerke von Spam-Seiten, die gegebenenfalls auch auf viele
verschiedene Domains verteilt sind, ans Ende der Ergebnisseiten
verbannt werden können.
BadRank als Umkehrung von PageRank:
Der hier präsentierte theoretische Ansatz zum PR0
wurde grundlegend zuerst von Raph Levien (www.advogato.org/person/raph)
formuliert. Basis dieses Ansatzes ist es, dass neben PageRank
ein weiteres Verfahren eingeführt wird, das nicht wie PageRank
die grundsätzliche Bedeutung einer Webseite im positiven Sinne bestimmt,
sondern vielmehr die negativen Eigenschaften von Webseiten misst.
Der Einfachheit halber soll dieses Verfahren hier BadRank genannt
werden.
Das
"linking to bad neighborhoods" bildet die Grundlage für den BadRank.
Eine Seite, die auf eine andere Seite mit einem hohen BadRank verlinkt,
erhält hierdurch tendenziell selbst einen hohen BadRank. Hiermit
werden die Parallelen zu PageRank bereits offentsichtlich,
nur dass BadRank nicht auf der Bewertung der eingehenden Links einer
jeweiligen Webseite beruht, sondern vielmehr auf deren eigenen ausgehenden
Links. In diesem Sinne ist BadRank gewissermaßen eine Umkehrung
von PageRank. In einer direkten Adaption des PageRank
Algorithmus würde sich die folgende Formel für den BadRank ergeben:
BR(Ti) der BadRank derjenigen Seiten T, auf die Seite A verlinkt,
C(Ti) die Anzahl der eingehenden Links der jeweiligen Seite
Ti und
d der auch hier erforderliche Dämpfungsfaktor.
Der Wert E(A) entsprach im Rahmen einer der hier
diskutierten Modifikationen des PageRank Algorithmus der manuellen
Höherbewertung spezifischer Webseiten. Im Rahmen des BadRank Algorithmus
reflektiert dieser Wert, ob eine Seite beim spidern des Webs von
einem Spam-Filter erfasst wurde. Ohne diesen Wert E(A) wäre der
BadRank Algorithmus vollkommen nutzlos, da es sich wiederum lediglich
um eine Analyse von Linkstrukturen handeln würde, der aber keine
weiteren Kriterien zu Grunde lägen.
Mit Hilfe des hier präsentierten BadRank-Algorithmus
können also zunächst Spam-Seiten erfasst werden. Ihnen wird dann
über E(A) ein numerischer Wert zugewiesen, der beispielsweise der
Schwere des Spammings entspricht oder sich vielleicht besser am
PageRank einer jeweiligen Seite orientiert, wobei die Summe
aller E(A) gleich der Anzahl der Webseiten sein muss. Im Laufe einer
iterativen Berechnung überträgt sich dieser zugewiesene Wert dann
nicht nur als BadRank auf diejenigen Seiten, die auf Spam-Seiten
verlinken. Vielmehr wäre BadRank in der Lage, Regionen des Webs
zu identifizieren, in denen Spam besonders häufig auftritt, ganz
ähnlich wie PageRank Regionen des Webs identifiziert, denen
eine grundlegende Bedeutsamkeit zukommt.
BadRank
und PageRank weisen dabei natürlich gravierende Unterschiede
auf, die vor allem darin begründet sind, dass die Verteilung von
eingehenden und ausgehenden Links ganz entscheidend voneinander
abweicht. Unser Beispiel stellt eine einfache, hierarchisch strukturierte
Website dar, die natürliche Linkstrukturen wohl recht gut abbildet.
Dabei verlinken alle Seiten jeweils auf all diejenigen Seiten, die
hierarchisch über ihnen angeordnet sind. Zudem verlinken sie auf
die ihnen direkt untergeordneten Seiten und diejenigen Seiten innerhalb
einer solchen Kategorie verlinken wiederum einander.
Die Verteilung der eingehenden und ausgehenden
Links innerhalb einer derartigen Site gibt die folgende Tabelle
wieder.
Ebene
Eingehende Links
Ausgehende Links
0
6
2
1
4
4
2
2
3
Wie zu erwarten, erfolgt hinsichtlich der eingehenden
Links eine hierarchische Abstufung von oben nach unten. Die Anzahl
der ausgehenden Links ist hingegen in der mittleren Hierarchiestufe
am höchsten. Ein ganz ähnliches Bild zeigt sich, wenn wir eine weitere
Ebene unten in unsere Beispiel-Site einfügen, die den oben beschriebenen
Richtlinien folgt:
Ebene
Eingehende Links
Ausgehende Links
0
14
2
1
8
4
2
4
5
3
2
4
Wiederum konzentriert sich die Zahl der ausgehenden
Links in den mittleren Hierarchiestufen. Vor allem aber, ist die
Verteilung der ausgehden Links wesentlich gleichmäßiger als die
der eingehenden Links.
Wenn wir in unserem ursprünglichen Beispiel der
Index-Seite A einen Wert E(A) gleich 100 zuweisen, wobei alle anderen
Werte E gleich 1 sind, ergeben sich bei einem Dämpfungsfaktor d
von 0.85 die folgenden BadRank-Werte:
Seite
BadRank
A
22.39
B/C
17.39
D/E/F/G
12.21
Es zeigt sich, dass der BadRank sich von der Index-Seite
aus weiter auf alle anderen Seiten der Site verteilt. Auf die Kombination
von BadRank und PageRank wird weiter unten noch detaillierter
eingegangen, ganz gleich jedoch, wie diese erfolgt, ist es unmittelbar
ersichtlich, dass beide sich sehr gut neutralisieren könnten. Schließlich
können wir davon ausgehen, dass auch der PageRank abnimmt,
je weiter wir uns in der Seitenhierarchie nach unten bewegen. Mit
einer derartigen Neutralisierung kann in jedem Falle ein PR0 für
alle Seiten erreicht werden.
Nehmen wir nun andererseits an, dass die hierachisch
nachgeordnete Seite G auf eine Seite X mit einem fixen BadRank BR(X)=10
verlinkt, wobei der Link von Seite G der einzige eingehende Link
von Seite X ist und alle Werte E für unser Beispiel-Site gleich
1 sind, ergeben sich bei einem Dämpfungsfaktor d von 0.85 die folgenden
Werte:
Seite
BadRank
A
4.82
B
7.50
C
14.50
D
4.22
E
4.22
F
11.22
G
17.18
Hier ist die Verteilung des BadRank weit weniger
homogen als im vorangegangenen Szenario. Nichtsdestotrotz erfolgt
eine Distribution des BadRank über die gesamte Site. Bemerkenswert
ist, dass der BadRank der Index-Seite A relativ gering ist. Es wäre
damit problematisch, einen im Vergleich zu den anderen Seiten höheren
PageRank gleichermaßen zu neutralisieren. Dieser Effekt mag
wenig wünschenswert sein, er spiegelt jedoch die Beobachtungen zahlreicher
Webmaster wider: Relativ häufig tritt das Phänomen auf, dass alle
Seiten bis auf die jeweilige Index-Seite einer Site einen PR0 aufweisen,
wobei die Index-Seite oft einen Toolbar-PageRank von 2 bis 4 hat.
Es drängt sich damit die Vermutung auf, dass diese spezielle Form
des PR0 nicht darauf beruht, dass die entsprechende Website von
einem der Spam-Filter identifiziert wurde, sondern dass sie ihre
Bestrafung aufgrund eines "linking to bad neighborhoods" erhalten
hat. Ferner wäre es natürlich auch möglich, dass diese Form des
PR0 darin begründet ist, dass lediglich hierarchisch nachgeordnete
Bereiche einer Website von einem Spam-Filter erfasst wurden.
Die Kombination von PageRank
und BadRank zum PR0:
Wenn wir davon ausgehen, dass ein BadRank in der
hier präsentierten Form existiert, stellt sich nun die Frage, in
welcher Form BadRank und PageRank kombiniert werden können,
um einerseits möglichst viele Spammer aus den Suchergebnissen zu
eliminieren und andererseits möglichst wenige unschuldige Seitenbetreiber
ungerechtfertigterweise zu bestrafen.
Rein intuitiv bietet sich eine Verwendung der BadRank-Werte
im Rahmen der eigentlichen PageRank-Berechnung an. So könnte
beispielsweise im Zuge der iterativen Berechnung der PageRank
einer Seite direkt durch ihren BadRank dividiert werden. Dies hätte
den Vorteil, dass eine Seite mit hohem BadRank auch keinen bzw.
nur einen minimalen PageRank weitergeben kann. Schließlich
kann man argumentieren, dass wenn eine Seite auf eine suspekte Seite
verlinkt, die anderen Seiten, auf die sie verlinkt, ebenfalls suspekt
sind. Eine direkte Verbindung birgt allerdings große Gefahren. So
sind beispielsweise die Auswirkungen auf den PageRank in keinster
Weise vorab einzuschätzen. Insbesondere ist zu beachten, dass eine
Seite, der die Möglichkeit genommen wird PageRank weiterzugeben,
zu einem Dangling Link wird. Wie jedoch im Abschnitt zu den ausgehenden
Links erörtert wurde, ist es unbedingt erforderlich, Dangling Links
im Rahmen der PageRank-Berechnung zu vermeiden.
Es ist also sinnvoll, PageRank und BadRank
getrennt voneinander zu berechnen. Die anschließende Kombination
der beiden kann dabei auf einfachen arithmetischen Berechnungen
beruhen. Eine Subtraktion hätte die grundsätzlich wünschenswerte
Folge, dass relativ geringe BadRank-Werte bei relativ hohen PageRank-Werten
kaum Einfluss hätten. Allerdings wäre es mit der Subtraktion problematisch,
tatsächlich einen PR0 für viele Seiten zu erreichen. Es würde vielmehr
eine breite Abstufung in niedrige PageRank-Regionen stattfinden.
Mit der Division von PageRank durch BadRank wäre ein PR0 leicht
zu erreichen. Dies würde jedoch implizieren, dass der BadRank eine
extrem große Bedeutung erhält. Vor allem jedoch ist ein sehr großer
Teil der BadRank kleiner als 1, da auch der Durchschnitt des BadRanks
1 ist, womit eine Normalisierung erforderlich wäre. Eine Normalisierung
und Skalierung des BadRanks auf Werte zwischen 0 und 1, so dass
"gute" Seiten Werte nahe 1 und "schlechte" Seiten Werte nahe 0 aufweisen,
und eine anschließende Multiplikation dieser Werte mit dem PageRank
einer Seite dürfte hier die besten Ergebnisse liefern.
Womöglich am effektivsten und am einfachsten zu
realisieren wäre jedoch eine schlichte, abgestufte Beurteilung von
PageRank und BadRank. Denkbar ist, dass sofern der BadRank
einen bestimmten Wert überschreitet, es stets zum PR0 kommt. Gleiches
gilt, wenn die Relation aus PageRank zu BadRank einen bestimmten
Wert unterschreitet. Daneben ist es sinnvoll, dass wenn der BadRank
und/oder die Relation aus BadRank zu PageRank unter einem
bestimmten Wert liegen, der BadRank keinen Einfluss nimmt. Nur wenn
keiner dieser Fälle eintritt, wäre eine tatsächliche Kombination
von PageRank und BadRank, etwa durch Division von PageRank
durch BadRank, erforderlich. Auf diese Weise sollten alle unerwünschten
Effekte vermieden werden können.
Kritische Beurteilung von BadRank
und PR0:
Wie die Kombination von PageRank und BadRank
tatsächlich erfolgt, ist eher von nachrangiger Bedeutung. Eine getrennte
Berechnung und anschließende Kombination von beiden hat allerdings
zur Folge, dass man gegebenenfalls nicht am Toolbar PageRank
messen kann, wie hoch tatsächlich der BadRank einer Seite ist. Denn
falls eine Seite einen hohen PageRank im ursprünglichen Sinne
hat, muss der Einfluss des BadRank nicht unbedingt ersichtlich sein.
Verlinkt eine andere Seite darauf, kann dies jedoch durchaus gravierende
Folgen haben.
Die weitaus größere Problematik liegt in der hier
präsentierten, direkten Umkehrung des PageRank-Algorithmus:
Genauso, wie ein zusätzlicher eingehender Link einer Seite deren
PageRank immer nur erhöhen kann, kann ein zusätzlicher ausgehender
Link einer Seite auch deren BadRank immer nur erhöhen. Dies liegt
darin begründet, dass im Rahmen der BadRank-Berechnung sich die
übertragenen Werte einfach aufaddieren. Somit ist es vollkommen
gleich, auf wie viele untadelige Sites eine Seite verlinkt - ein
einziger Link auf eine Spam-Site kann gegebenenfalls ausreichen,
um zu einem PR0 zu führen.
Diese Problematik stellt sich allerdings wohl nur
in Ausnahmefällen. Da sich schließlich bei einer direkten Umkehrung
des PageRank-Algorithmus der BadRank einer Seite unter deren
eingehenden Links aufteilt, wird bei einzelnen Links auf Seiten
mit hohem BadRank immer nur jeweils ein Bruchteil des BadRank übertragen.
Google's Matt Cutts sagt hierzu: "If someone accidentally does a
link to a bad site, that may not hurt them, but if they do twenty,
that's a problem." (Quelle)
Solange jedoch alle Links im Rahmen des BadRank
gleichermaßen gewertet werden, besteht dennoch auch bei einzelnen
Links ein Problem. Haben schließlich zwei Seiten einen sehr unterschiedlich
hohen PageRank und verlinken auf die gleiche Seite mit hohem
BadRank, kann es nach Art und Weise der Kombination von PageRank
und BadRank dazu kommen, dass die Seite mit dem höheren PageRank
weit weniger unter dem auf sie übertragenen BadRank leidet als diejenige
Seite mit dem niedrigeren PageRank. Wir können allerdings
zuversichtlich sein, dass Google mit derartigen Problemen umzugehen
weiß. Nichtsdestotrotz soll nochmals angemerkt werden, dass ausgehende
Links im Rahmen der hier beschriebenen Verfahren immer nur schaden
können.
Dass die hier vorgestellten Verfahren tatsächlich
auch dieser Form eingesetzt werden, ist natürlich reine Spekulation.
Grundsätzlich sollte jedoch die Bewertung von Linkstrukturen in
Analogie zum PageRank-Verfahren genau die Art und Weise sein,
wie nur Google mit Spam umzugehen versteht.