PhraseRank ist nicht PageRank

Will Google den Search Spam mit den neuesten Patenten im Bereich der Information Retrieval Systeme (IRS) stärker bekämpfen? Der Kampf gegen Search Engine Spam geht in die nächste Runde. Mit neuen Patenten versucht Google noch mehr Möglichkeiten zu bekommen, um Content von Websites zu bewerten. Prompt sprechen viele Webmaster über „PhraseRank“.

Ein Information Retrieval System verwendet Phrasen, um Dokumente im Netz zu finden, zu registrieren, zu organisieren und zu beschreiben. Es werden solche Phrasen gekennzeichnet, die andere mögliche Phrasen in einem Dokument voraussagen können. Die Dokumente werden entsprechend ihrer enthaltenen Phrasen registriert.

Der gebildete Dokumentenindex setzt sich aus mehreren Indizes zusammen und wird in einen Primärindex und ein oder mehreren Sekundärindizes aufgeteilt.

Aufgrund der im Primärindex gespeicherten Phrasen werden die Dokumente nach Relevanz bewertet, sortiert und bei den Anfragen als Liste ausgegeben. Der Sekundärindex speichert aus Sicht der Suchmaschine weniger relevante Informationen, die normalerweise bei der Suche selten berücksichtigt werden.

Kommt jetzt „PhraseRank“?

Jetzt stellen Sie sich bitte eine Phrasen-basierte Suchmaschine (Information Retrieval System) zur Bekämpfung des Search Engine Spams vor. Das System erkennt und kennzeichnet verwandte und in Verbindung stehende Phrasen und Begriffe des Dokuments. Diese Phrasen werden ebenfalls dazu benutzt, um Dokumente für die Suchergebnisse zu gruppieren, zu beschreiben und doppelte Dokumente aus dem Index zu entfernen.

Bei einer Anfrage werden Phrasen benutzt, um relevante Dokumente im Netz zu finden und auszugeben, die abgesehen vom PageRank auch einen entsprechenden „PhraseRank“ zugewiesen bekommen haben.

PhraseRank erlaubt es Google, infolge der im Dokument vorkommenden Phrasen den Themenschwerpunkt zu erkennen. Wenn die Phrasen zu oft im Vergleich zu einem „normalen Dokument“ vorkommen, wird die Qualität des Textes angezweifelt und solche Dokumente als „verdächtig“ gekennzeichnet.

Das Information Retrieval System wird die Art und Weise betrachten, wie Phrasen im Netz verwendet werden, wie oft sie vorkommen, und wie Phrasen miteinander korrelieren. Bestimmte Phrasen können in Dokumenten mit vergleichbaren Inhalten ähnlich sein und in Wechselbeziehungen zueinander stehen.

Zum Beispiel wird man in einem Dokument über Salvador Dali mit großer Wahrscheinlichkeit auch die Phrasen „Art Gallery“ oder „das Leben und Werk des spanischen Künstlers“ wiederfinden. So kann der Wortlaut einer Phrase auch den Inhalt anderer Phrasen vorhersagen. Man sollte nicht vergessen, dass wir beim Reden und Schreiben grundsätzlich feste Redewendungen oder Stereotypen verwenden, deren Umfang aus Sicht der Suchmaschine eher begrenzt ist.

Ein Spam-Dokument könnte zum Beispiel eine übermäßige Anzahl von populären Wörter mit in Verbindung stehenden Phrasen enthalten. Solche Dokumente bezeichnet man als „keyword stuffed pages (mit Schlüsselwörtern angefüllte Seiten)”. Wann und ob Google einen PhraseRank-Algorithmus zur Bewertung der Phrasen neben dem Pagerank- Algorithmus einführt, bleibt abzuwarten.

Mehr Informationen zum „PhraseRank“

Anna Patterson ist führend bei der Entwicklung Phrasen-basierten Information Retrieval Systemen. Sie hat eine Reihe eigener Patente mit dem einen oder anderen Aspekt der Phrase-basierten Index-Bewegung angemeldet:

Allgemeine Informationen zu Information Retrieval Systemen

Datum: 05.01.2007 02:11 - Rubrik: Artikel / Google konkret - Author: seocat

Suchmaschinenoptimierung von seo-konkret
suchen:
go!