Die themen- bzw. themengebietsbezogene Homogenität
von Webseiten wird schon seit geraumer Zeit als mögliches Ranking-Kriterium
von Suchmaschinen diskutiert. Für die Integration von Themen in
Suchmaschinenalgorithmen gibt es die verschiedensten Denkansätze.
Ihnen gemein ist, dass Webseiten nicht mehr allein aufgrund Ihrer
eigenen Inhalte bewertet werden, sondern dass auch die Inhalte anderer
Webseiten hierzu berücksichtigt werden. So könnten also beispielsweise
die Inhalte aller Seiten einer Website Einfluss auf die Bewertung
einer einzelnen Seite dieser Website nehmen. Andererseits ist es
auch denkbar, dass eine Seite an den Inhalten derjenigen Seiten
gemessen wird, auf die sie verlinkt oder aber von denen sie selbst
verlinkt wird.
Sehr kontrovers diskutiert wird der mögliche Einsatz
eines themenbasierten Rankings für die Suchmaschine Google.
Immer wieder finden sich in einschlägigen Foren und auf Websites
zum Thema Suchmaschinenoptimierung Ratschläge, dass eingehende Links
von Seiten mit thematischer Ähnlichkeit einen größeren Einfluss
auf den PageRank haben als Links von anderen Seiten. Diese
Annahme soll hier kritisch beleuchtet werden. Zunächst werden hierzu
zwei relativ neue Ansätze zur Integration von Themen in das PageRank-Verfahren
diskutiert: auf der einen Seite das Modell des "intelligenten Surfers"
von Matthew Richardson und Pedro Domingos und auf der anderen Seite
der Topic-Sensitive PageRank von Taher Haveliwala. Anschließend
sollen Möglichkeiten aufgezeigt werden, inwieweit Inhaltsanalysen
und -vergleiche dazu eingesetzt werden können, thematische Ähnlichkeiten
zwischen Seiten zu berechnen, um auf dieser Basis dann eine Gewichtung
von Links im Rahmen des PageRank-Verfahrens vorzunehmen.
Der "intelligente Surfer" von
Richardson und Domingos:
Matthew Richardson und Pedro Domingos ziehen zur
Erläuterung ihres Ansatzes zur Implementierung von Themengebieten
in das PageRank-Verfahren zunächst das Random Surfer Modell
heran. Sie schlagen anstelle eines Surfers, der wahllos Links verfolgt,
einen intelligenteren Surfer vor, der einerseits Links nur entsprechend
seiner Suchanfrage verfolgt und andererseits auch nach dem Abbruch
des Surf-Vorgangs nur Seiten aufruft, die seiner Suchanfrage entsprechen.
Im Rahmen des Ansatzes von Richardson und Domingos
sind für den "intelligenten Surfer" also nur Seiten relevant, die
den von ihm gesuchten Begriff auch tatsächlichen enthalten. Das
Random Surfer Modell ist jedoch nichts als ein Abbild des PageRank-Verfahrens.
Zur Umsetzung muss also für jeden im Web existierenden Begriff eine
eigene PageRank-Berechnung stattfinden. Diese Berechnung stützt
sich dabei ausschließlich auf Links zwischen Seiten, die den jeweiligen
Begriff enthalten.
Das Modell von Richardson und Domingos wirft einige
Probleme auf. Vor allem entstehen diese im Bereich von Suchbegriffen,
die nicht sehr häufig im Web vorkommen. Da diese wenigen Seiten
sich auch noch verlinken müssen, um in die PageRank-Berechnung
eingehen zu können, basieren die Resultate auf nur sehr kleinen
Subbereichen des Webs und lassen gegebenenfalls sehr relevante Seiten
außen vor. Ferner ist natürlich ein kleiner Subbereich des Webs
wesentlich anfälliger für Spam im Sinne der Generierung zahlreicher
Webseiten.
Zudem ergeben sich gravierende Probleme bezüglich
der Skalierbarkeit. Richardson und Domingos schätzen sowohl den
Speicher- als auch den Rechenbedarf für mehrere 100.000 Begriffe
und entsprechende PageRank-Berechnungen auf das 100-200-fache
des ursprünglichen PageRank-Verfahrens. Diese Zahlen klingen
angesichts der großen Zahl relativ kleiner Subbereiche des Webs
realistisch.
Der erhöhte Speicherbedarf sollte kein grundsätzliches
Problem darstellen, da Richardson und Domingos hierzu richtig anführen,
dass die begriffsspezifischen PageRank-Werte nur einen Bruchteil
des Datenvolumens des inversen Index Google's ausmachen dürften.
Wirklich problematisch ist der Zeitbedarf für die Berechnung. Kalkulieren
wir nur mit fünf Stunden für eine herkömmliche PageRank-Berechnung,
so würde diese im Falle des Modells von Richardson und Domingos
etwa drei Wochen in Anspruch nehmen. Dies stünde für den tatsächlichen
Einsatz nicht zur Diskussion.
Taher Haveliwala's Topic-Sensitive
PageRank:
Der Ansatz von Taher Havilewala scheint für den
tatsächlichen Einsatz vielversprechender. Auch Havilewala regt die
Berechnung unterschiedlicher PageRank für unterschiedliche
Themenbereiche an. Hierbei sollen jedoch nicht hunderttausende PageRanks
für verschiedene Subbereiche des Webs, sondern vielmehr wenige PageRank
auf der Basis des gesamten Webs berechnet werden. Bei dieser Berechnung
wird zwar das gesamte Web berücksichtigt, es erfolgt jedoch jeweils
eine dem Themengebiet entsprechende, unterschiedliche Gewichtung.
Die Grundlagen für den Ansatz von Havilewala wurden
hier schon im Abschnitt zum "Yahoo-Bonus" beschrieben. Dabei wurde
die Möglichkeit aufgezeigt, spezifischen Webseiten eine besondere
Bedeutung im Rahmen des PageRank-Verfahrens zukommen zu lassen.
Auf das Random Surfer Modell übertragen geschah dies dadurch, dass
die Wahrscheinlichkeit erhöht wird, dass der Zufalls-Surfer nach
dem Abbruch eines Surf-Vorgangs eine bestimmte Seite aufsucht. Diese
Einflussnahme auf das PageRank-Verfahren wirkt sich dann über
Links auf den PageRank aller Seiten des Webs aus. Konkret
erreicht wurde diese Einflussnahme durch die Implementierung eines
weiteren Wertes E in den PageRank Algorithmus:
Havilewala geht in seinem Ansatz zum Topic-Sensitive
PageRank einen Schritt weiter. Er weist keiner Site oder Seite
eine grundlegende und allgemeingültige höhere Wertung zu, sondern
differenziert diese auf der Basis bestimmter Themengebiete. Für
jedes dieser Themengebiete identifiziert er jeweils andere Seiten
mit besonderer Kompetenz. Auf der Grundlage dieser Bewertungen werden
dann unterschiedliche PageRank jeweils für das gesamte Web
berechnet.
In seiner Arbeit zum Topic-Sensitive PageRank
wählte Haveliwala die 16 Hauptkategorien des Open Directory Projekt
sowohl zur Identifizierung von Themengebieten als auch für die besondere
Bewertung innerhalb der PageRank-Berechung aus. Konkret weist
Haveliwala für die einzelnen PageRank-Berechnungen den jeweiligen
Seiten unter den Hauptkategorien des ODP einen hohen Wert E innerhalb
des PageRank Algorithmus zu. Wird etwa der PageRank
für das Thema Gesundheit berechnet, erhalten die ODP-Seiten der
Kategorie Gesundheit jeweils einen relativ höheren Wert E, der sich
dann auf die von dort verlinkten Seiten auswirkt. Dies setzt sich
natürlich fort, und unter der Annahme, dass Websites zum Thema Gesundheit
sich tendenziell verstärkt gegenseitig verlinken, haben all diese
Seiten im Rahmen des Themas Gesundheit einen relativ höheren PageRank.
Haveliwala konstatiert die Unvollkommenheit der
Wahl des Open Directory Project, die sich etwa in einer großen Abhängigkeit
von den Editoren des ODP und in einer nur sehr groben Untergliederung
in Themengebiete äußert, sie liefert allerdings offensichtlich bereits
gute Ergebnisse und kann sicherlich ohne großen Aufwand verbessert
werden.
Ein Schwerpunkt der Arbeit zum Topic-Sensitive
PageRank ist die Identifizierung der Präferenzen des Benutzers.
Über themenspezifische Bewertungsmöglichkeiten zu verfügen ist nutzlos,
so lange man nicht darüber informiert ist, welche Themengebiete
für den Benutzer interessant sind. Schließlich soll für jeweilige
Suchanfragen immer nur derjenige PageRank in die Seitenbewertung
einfließen, der für die Suchanfrage des Benutzers auch tatsächlich
relevant ist. Erst hierdurch kann der Topic-Sensitive PageRank
tatsächlich genutzt werden.
Auch zur Identifikation der Benutzerpräferenzen
liefert Haveliwala allerdings praktikable Ansätze. So beschreibt
er beispielsweise die Suche im Kontext durch Markieren eines Begriffes
innerhalb eines Dokuments - und damit den Inhalt dieses Dokuments
als Anhaltspunkt für die Identifizierung von Benutzerpräferenzen.
An dieser Stelle soll dazu wiederum an die Möglichkeiten der Google
Toolbar erinnert werden. Die Toolbar überträgt Daten zu Suchbegriffen
und besuchten Seiten an Google und könnte damit leicht zur
Erstellung von Benutzerprofilen dienen. Doch auch ohne Installation
der Toolbar wäre letztlich eine aktive Auswahl eines Themengebiets
durch den User jeweils vor seiner Suche denkbar.
Bewertung von Links auf der
Basis von Inhaltsanalysen:
Dass grundsätzlich eine Gewichtung einzelner Links
im Rahmen des PageRank-Verfahrens möglich ist, wurde auf der
vorigen Seite bereits gezeigt. Der Hintergrund einer Gewichtung
von Links auf der Basis von Inhaltsanalysen würde in erster Linie
in der Verhinderung der Korrumpierung des Pagerank-Verfahrens
liegen. So könnte theoretisch mittels Inhaltsanalysen erreicht werden,
dass Links, die ausschließlich zum Zwecke der Steigerung des PageRank
bestimmter Sites gesetzt werden, in vielen Fällen in weitaus geringerem
Maße auf den PageRank Einfluss nehmen. Fraglich ist allerdings,
ob eine derartige Bewertung auf der Basis von Inhaltsanalysen auch
tatsächlich umgesetzt werden kann.
Die
Grundlagen zum Vergleich von Inhalten wurden bereits in den 60er
und 70er Jahren des 20. Jahrhunderts von Gerard Salton erarbeitet.
Sein Vektorraummodell bildet Dokumente als Vektoren aus Termen (Begriffe
innerhalb eines Dokuments) und deren Gewichtung ab. Diese Termvektoren
können dann miteinander verglichen werden, indem z.B. das Kosinus-Maß
(Skalarprodukt) berechnet wird, um inhaltliche Ähnlichkeiten zwischen
den Dokumenten zu messen. In seiner einfachen Form weist das Vektorraummodell
einige Schwächen auf. So wird etwa die grundsätzliche Annahme kritisiert,
dass die Ähnlichkeit zwischen Dokumenten daran bemessen wird, ob
und in welchem Ausmaß einzelne Terme tatsächlich in zwei zu vergleichenden
Dokumenten vorkommen. Mittlerweile gibt es jedoch zahlreiche Erweiterungen
und Verfeinerungen des Vektorraummodells die viele der Probleme
beheben.
Mit Arbeiten die auf Saltons Vektorraummodell aufbauen
hat sich vor allem auch Krishna Bharat hervorgetan. Dies ist in
erster Linie von Interesse, weil Bharat mittlerweile zu Googles
Mitarbeiterstab zählt und insbesondere als Entwickler der "Google
News" (news.google.com) gilt. Google News ist ein Service,
der Nachrichten-Websites spidert, die einzelnen Nachrichten auswertet
und anschließend in unterschiedlichen Kategorien zu unterschiedlichen
Themen zusammenfasst. Nach Angaben Googles erfolgen all diese Vorgänge
vollkommen automatisiert. Hierzu werden weitere Kriterien wie etwa
der Zeitpunkt des Erscheinens eines jeweiligen Artikels herangezogen,
sofern jedoch keinerlei manuelle Eingriffe stattfinden, ist eine
Zusammenfassung unter inhaltlichen Gesichtspunkten nur möglich,
wenn die Inhalte der einzelnen Nachrichten zunächst einmal tatsächlich
miteinander verglichen werden. Es stellt sich nur die Frage, wir
dies realisiert werden kann.
In Ihrer Veröffentlichung zum Aufbau einer Termvektor-Datenbank
beschreiben Raymie Stata, Krishna Bharat und Farzin Maghoul sehr
anschaulich, wie Vergleiche zwischen Inhalten auf der Basis von
Termvektoren realisiert und vor allem auch, wie verschiedene Hürden
bei Umsetzung überwunden werden können. Zunächst besteht die Problematik,
dass zahlreiche Begriffe innerhalb eines Dokuments nicht für einen
Inhaltsvergleich geeignet sind. So wird aus der Gesamtheit aller
Begriffe zuerst das am häufigsten vorkommende Drittel gefiltert,
da diese Begriffe nur zu einem sehr geringen Grad dazu beitragen
können, die Inhalte von Dokumenten voneinander zu unterscheiden.
Da relativ selten vorkommende Begriffe, die z.B. auch aus Tippfehlern
resultieren können, gegebenenfalls thematisch sehr unterschiedliche
Dokumente sehr ähnlich erscheinen lassen, weil die entsprechenden
Begriffe insgesamt sehr selten vorkommen, wird auch das am wenigsten
auftretende Drittel gefiltert, womit für die Durchführung von Vergleichen
nurmehr ein Drittel aller Begriffe genutzt wird.
Auch wenn bereits zwei Drittel aller Begriffe nicht
in die Termvektoren gelangen können, ist diese Auswahl für einen
Vergleich noch wenig effizient. Stata, Bharat und Maghoul führen
deshalb vor dem Aufbau der Termvektoren eine weitere Filterung durch,
so dass ein Termvektor jeweils auf maximal 50 Begriffen basiert.
Diese 50 Begriffe sind jedoch nicht etwa die 50 am häufigsten innerhalb
eines Dokuments auftretenden Begriffe. Vielmehr werden die 50 Begriffe
genutzt, für die die Relation aus dem Vorkommen innerhalb eines
Dokuments zum Vorkommen innerhalb der Gesamtheit aller Dokumente
am größten ist. Gerade hierdurch wird es möglich, die Inhalte von
Dokumenten tatsächlich voneinander abzugrenzen.
Die beschriebenen Maßnahmen sind Standards im Rahmen
der Nutzung von Termvektoren. Wenn z.B. das Skalarprodukt aus zwei
derart ermittelten Termvektoren relativ hoch ist, sind die beiden
entsprechenden Seiten einander unter thematischen Gesichtspunkten
tendenziell ähnlich. Diese Vorgehensweisen ermöglichen Inhaltsvergleiche
in vielen Bereichen, ob sie allein jedoch für unser Ziel der Gewichtung
von Links im Rahmen des PageRank-Verfahrens ausreichend sind,
ist zu bezweifeln. Schließlich können vor allem Synonyme, aber auch
andere Begriffe, die Ähnliches umschreiben, mittels der beschriebenen
Vorgehensweisen nicht identifiziert werden. Für das Problem der
Zusammenfassung von Singular und Plural etwa, existieren für die
englische Sprache relativ einfache Algorithmen. In anderen Sprachen
ist dies jedoch ungleich schwerer zu bewältigen. Unterschiedliche
Sprachen sind dabei ein grundsätzliches Problem. Bis auf die Ausnahme
von z.B. Lehnwörtern oder Markennamen werden verschiedensprachige
Texte in der Regel keine gemeinsamen Begriffe enthalten, oder aber
gemeinsame Begriffe haben eine völlig unterschiedliche Bedeutung,
so dass ein Vergleich zwischen Texten in unterschiedlichen Sprachen
nicht möglich ist. Doch auch hierfür bieten Stata, Bharat und Maghoul
einen Lösungsansatz.
Stata,
Bharat und Maghoul zeigen eine sehr konkrete Anwendungsmöglichkeit
ihrer Termvektor-Datenbank auf, indem Sie für einzelne Dokumente
ein entsprechendes, vordefiniertes Themengebiet identifizieren.
Über diese Identifizierung von Themengebieten hat Bharat auch gemeinsam
mit Monika Henzinger - derzeit Research Director bei Google
- veröffentlicht, und sie funktioniert folgendermaßen: Zunächst
werden sogenannte Themenvektoren berechnet. Themenvektoren sind
selbst auch Termvektoren, nur dass Sie nicht auf den Inhalten einer
einzelnen Webseite basieren, sondern auf den Inhalten vieler Webseiten,
denen eine inhaltliche Ähnlichkeit gemein ist. Um einen Themenvektor
aufbauen zu können, muss es für jedes vordefinierte Themengebiet
eine bestimmte Anzahl an Webseiten geben, für die bekannt ist, welchem
Themengebiet sie zugeordnet werden können. Zu diesem Zwecke greifen
Stata, Bharat und Maghoul auf Web-Verzeichnisse zurück.
In einer konkreten Anwendung von Themenvektoren
haben sie auf der Basis von jeweils ca. 30.000 Links innerhalb der
damals 12 Hauptkategorien des Yahoo-Verzeichnisses Themenvektoren
mit einem Umfang von jeweils ca. 10.000 Begriffen gebildet. Um das
Thema einer Webseite identifizieren zu können, haben sie anschließend
die Ähnlichkeiten zwischen dem entsprechenden Termvektor und den
einzelnen Themenvektoren berechnet. Derjenige Themenvektor, für
den der höchste Wert ermittelt wird, bestimmt das Thema der Webseite.
Dass die Einordnung von Themen in der Praxis gut funktioniert kann
wiederum anhand von Google News beobachtet werden. Einzelne
Artikel werden nicht nur zu einem konkreten Thama zusammengefasst,
sondern auch noch in eine der Kategorien World, U.S., Business,
Sci/Tech, Sports, Entertainment und Health eingeordnet. Solange
eine derartige Kategorisierung nicht über die Website-Strukturen
der Quellen für die Artikel erfolgt (was unwahrscheinlich ist),
muss tatsächlich das Thema eines Artikels bzw. einer Gruppe von
Artikeln berechnet werden.
Krishna Bharat beschäftigte sich zum Zeitpunkt
seiner Veröffentlichungen nicht mit PageRank, sondern vielmehr
mit dem Kleinberg-Algorithmus, so dass er weniger die Gewichtung
von Links als vielmehr das Filtern von inhaltlich unzusammenhängenden
Links verfolgt hat. Der Schritt zu einem Vergleich von Inhalten
für die Gewichtung von Links im Rahmen des PageRank ist jedoch nur
kurz. Anstatt der Inhalte von zwei sich verlinkenden Seiten werden
nurmehr die für sie identifizierten Themengebiete verglichen. So
könnten beispielsweise die Grade der Zugehörigkeit eines jeden Dokuments
zu jeweils allen Themengebieten in einem Themenzugehörigkeitsvektor
erfasst werden. Diese Vektoren können dann als Grundlage für den
Vergleich zweier sich verlinkender Webseiten gewählt werden und
somit der Gewichtung der Links dienen.
Die Nutzung von Themenvektoren bietet gegenüber
dem direkten Vergleich von Termvektoren einen wesentlichen Vorteil:
Ein Themenvektor kann auf Begriffen aus unterschiedlichen Sprachen
basieren. Hierzu müssen lediglich z.B. Seiten aus den nationalen
Yahoo-Versionen berücksichtigt werden. Mögliche Abweichungen in
den Verzeichnis-Strukturen können sicherlich manuell angepasst werden.
Besser wäre gegebenenfalls ein Rückgriff auf das ODP, dessen Strukturen
sich innerhalb der Kategorie "World" an die Struktur der Hauptkategorien
anlehnen. Hierdurch wäre die Feststellung thematischer Ähnlichkeiten
zwischen verlinkenden Seiten auch multilingual zu realisieren, so
dass eine sinnvoll geartete Gewichtung von Links auf der Basis von
Inhaltsanalysen durchaus möglich erscheint.
Implementierung von Themen ins PageRank-Verfahren
Dass die Ansätze von Haveliwala sowie Richardson
und Domingos zwar durchaus interessant sind, aber derzeit nicht
eingesetzt werden, ist offensichtlich. Man könnte es unmittelbar
bei der Nutzung Googles erkennen. Eine Gewichtung von Links auf
der Basis von Inhaltsanalysen hingegen wäre nicht unmittelbar zu
bemerken. Dass sie theoretisch möglich ist, wurde gezeigt. Ob sie
aber auch praktisch umgesetzt wird, ist durchaus zweifelhaft.
Es soll an dieser Stelle nicht der Anspruch erhoben
werden, den einzig möglichen Weg zur Gewichtung von Links aus der
Basis von Inhaltsanalysen aufgezeigt zu haben. Es gibt in der Tat
sicherlich dutzende andere. Der hier vorgestellte orientiert sich
jedoch an Veröffentlichungen wichtiger Google-Mitarbeiter,
was ihn dazu qualifiziert, auf ihn eine kritische Beurteilung zu
stützen.
Wie immer im Rahmen des PageRank-Verfahrens,
so stellt sich auch hier die Frage, ob ein Einsatz der vorgestellten
Lösung hinreichend skalierbar ist. Einerseits erfordert sie zusätzliche
Speicherkapazitäten. Die zitierte Arbeit von Stata, Bharat und Maghoul
beschreibt schließlich gerade die Architektur einer Termvektoren-Datenbank,
die sich in Ihrer Struktur grundlegend von Google's inversem Index
unterscheidet, da sie aus Effizienzgründen von Seiten-IDs auf Terme
referenziert und damit kaum in bestehende Architekturen integriert
werden kann. Der zusätzliche Speicherbedarf dürfte für die aktuelle
Indexgröße zwischen mehreren hundert GB und wenigen TB liegen. Dies
sollte angesichts eines um ein Vielfaches größeren Index allerdings
nicht sehr ins Gewicht fallen. Problematischer ist der Zeitbedarf
für den Aufbau der Datenbank und die Berechnung der Gewichtungen.
Der Aufbau einer Termvektor-Datenbank sollte sich
unter zeitlichen Aspekten etwa in der Größenordnung des Aufbaus
des inversen Index bewegen. Natürlich können wir davon ausgehen,
dass etliche Prozesse gleichsam für den Aufbau beider Datenbanken
genutzt werden können. Sobald jedoch zum Beispiel die Gewichtung
der Terme innerhalb einzelner Termvektoren von ihrer Gewichtung
innerhalb des Index abweichen muss, bleibt der Zeitbedarf erheblich.
Sofern wir davon ausgehen, dass wie in unserem Lösungsansatz hier,
das Skalarprodukt der aus Term- und Themenvektoren errechneten Themenzugehörigkeitsvektoren
bestimmt werden soll, so können wir davon ausgehen, dass dieser
Prozess einen Zeitaufwand darstellt, der sich im Rahmen der eigentlichen
PageRank-Berechnung bewegt. Natürlich muss auch hier bedacht
werden, dass die PageRank-Berechnung selbst durch die Gewichtung
von Links zusätzlich an Komplexität gewinnt.
Der zusätzliche Aufwand wäre also gewiss nicht
unerheblich. Vor allem auch deshalb stellt sich die Frage, ob eine
Gewichtung von Links überhaupt sinnvoll ist. Links, die zwischen
thematisch unzusammenhängigen Seiten allein zum Zwecke der PageRank-Erhöhung
einer der beiden Seiten gesetzt werden, mögen zwar ärgerlich sein,
sie dürften jedoch nur einen minimalen Anteil an der Gesamtheit
aller Links ausmachen. Andererseits ist das Web an sich vollkommen
inhomogen. Google, Yahoo oder das ODP verdanken ihren hohen
PageRank sicherlich nicht nur eingehenden Links von anderen
Suchdiensten. Ein großer Teil der Links innerhalb des Webs werden
einfach nicht mit dem Ziel gesetzt, Besuchern einen Weg zu weiteren,
thematisch verwandten Informationen zu weisen. Die Motivation für
das Setzen von Links ist vielmehr vielfältig. Weiterhin sind die
wohl beliebtesten Websites in sich vollkommen inhomogen. Man denke
nur an Portale wie Yahoo oder aber an Nachrichten-Websites, deren
Artikel allen Bereichen menschlichen Lebens entstammen. Eine starke
Gewichtung von Links in der hier beschriebenen Form würde sich drastisch
auf ihren PageRank auswirken.
Eine Gewichtung von Links dürfte also nur sehr
eingeschränkt stattfinden, wenn das PageRank-Verfahren nicht
ad absurdum geführt werden soll. Dies wirft dann natürlich die Frage
auf, ob dann der erforderliche Aufwand gerechtfertigt ist. Schließlich
gibt es durchaus andere Möglichkeiten, den Spam, der beispielsweise
durch erkaufte, thematisch unzusammenhängende Links in den Suchergebnissen
nach vorn kommen kann, an das das Ende der Suchergebnisse zu verbannen.