Definition: Hilltop-AlgorithmusAls Antwort auf eine Suchanfrage liefert eine Suchmaschine eine aus Ihrer Sicht nach Relevanz geordnete Suchergebnisliste. Diese Liste beinhaltet alle im Index vorhandene Webseiten und ist normalerweise wirklich sehr lang, so dass ein Suchender alle diese Ergebnisse selten betrachten kann. Studien zeigen, dass der User normalerweise nur die ersten 10 bis 20 Resultate ansieht. Diese Top10 Ergebnisse sind so zu sagen die Essenz eines Suchbegriffs aus Hunderten oder Tausenden im Netz vorhandenen Webseiten. Für Ermittlung einer Ranglistenposition benutzen Suchmaschinen spezielle Algorithmen, die ständig weiter entwickelt werden. Zum Beispiel listet Google nach dem PageRank-Algorithmus und Yahoo nach dem WebRank-Algorithmus. Diese Algorithmen sind jedoch trotzdem noch nicht ausreichend und unter Umständen anfällig für Manipulationen. Zur Beseitigung oben beschriebener Problematik entwickeln Suchmaschinenbetreiber stets weitere, leistungsfähigere Algorithmen. Sei einiger Zeit erarbeiten Wissenschaftler einen Algorithmus der auf Experten-Dokumenten basiert und eine relevante Trefferquote erzielt, so genannten Hilltop Algorithmus. Das Konzept des Hilltop Algorithmus wurde vom Krishna Bharat und George Andrei Mihaila erarbeitet und befindet sich noch in der Entwicklung. Hilltop als SpamwaffeBei einer traditionellen Informationsquelle wird angenommen, dass die im Text vorkommenden Wörter immer einen zusammenhängenden und für den Leser bestimmten, sinnvollen Satz bilden. Diese Annahme gilt im WWW nicht zu 100%. Es gibt zahlreiche Webseiten, die ausschliesslich zur Manipulation von Suchmaschinen geschaffen wurden. Solche Seiten beinhalten eine “zweckmäßige” Aneinanderreihung von Wörtern, um ein besseres Ranking zu erzielen. Betreiber solcher Spam-Seiten gehen davon aus, dass eine Suchmaschine, grob gesagt, nur die Zeichenketten und die Abstände innerhalb eines Textes, nicht aber die semantischen Zusammenhänge eines Satzes erkennt. Dabei vergleichen Suchmaschinen eine bei der Suchanfrage als Suchbegriff übermittelte Zeichenkette mit den Zeichenketten abertausender Dokumente. Selbst wenn man unterstellt, dass so mancher Betreiber die Suchmaschinenergebnisse nicht manipulieren will, so ist es doch offensichtlich, dass eine zunehmende Tendenz vorherrscht, das Internet mit immer mehr populären, oberflächlichen oder laienhaften Inhalten zu übervölkern und zu verseuchen. Infolgedessen werden spezifische Fragen oft unzulänglich beantwortet. Wie wir sehen, genügt es nicht nur den Inhalt einer Webseite zu analysieren, um ihre Qualität zu ermitteln. Bei der reinen Inhaltanalyse können Suchmaschinen nicht zwischen den maßgebenden und nicht-maßgebenden Seiten (zum Beispiel Ermittlung von Spam Seiten) optimal unterscheiden. Deshalb benutzen Sie darüberhinaus auch andere Kriterien, um Resultate zu ordnen. Verlässliche Kriterien für die Relevanzbestimmung einer Website sind die Anzahl und Qualität der Webseiten, die auf sie weiterleiten. Hilltop - Stein der Weisen?Der Hilltop-Algorithmus basiert im Grunde auf den gleichen Annahmen wie andere Algorithmen, dass nämlich die Zahl und die Qualität der Quellen, die auf eine Webseite verweisen, ein gutes Mass für die Bestimmung der Qualität dieser Seite sind. Allerdings werden beim Hilltop nur so genannte Expertenseiten beachtet. - Dies ist ein weitreichender Unterschied! Als Expertenseiten werden Quellen definiert, die speziell dafür erstellt wurden, Besucher zu hochwertigen Ressourcen weiterzuleiten. Bei einer Suchanfrage wird zuerst eine Liste der relevantesten Experten zu diesem Thema erstellt. Aus dieser Expertenliste werden wiederum die relevantesten Verweise verfolgt, um die Ziel- Webseiten zu ermitteln, welche letzen Endes nach Anzahl und Relevanz der Verweise von unabhängigen Experten gerankt werden. Es werden also die unabhängigen Experten nach Relevanz kommuliert und in einem Pool zusammengefasst. Wenn kein Pool von Experten vorhanden ist, liefert Hilltop keine Ergebnisse. Damit steht der Hilltop-Algorithmus für Qualität der Resultate und nicht für deren Quantität. Der Hilltop-Algorithmus hat zwei Arbeitsphasen:
Ermittlung von ExpertenIm Netz gibt es zahlreiche, mit der Hand erzeugte Listen zu verschiedenen Themen. Sie werden von Einzelpersonen oder Organisationen erstellt und üben über Ihre Popularität einen gewissen Einfluss innerhalb der User-Gemeinschaft aus. Die Autoren solcher Listen haben folglich Interesse daran, ihre Webkataloge, Listen und Webverzeichnisse möglichst komplett und aktuell zu halten. Sie verlinken Ihre Seiten und sprechen Empfehlungen aus. Mit anderen Worten, es ist schwierig einen Experten von den anderen zu unterscheiden. Deshalb gibt es bestimmte Regeln, um die Experten objektiv und zuverlässig zu ermitteln. Damit die Expertenseiten als unabhängig definiert werden, müssen sie folgende Kriterien erfüllen:
Selektion von ExpertenseitenDiesem Schritt (Englisch: Selecting the Experts) geht die Datenbankabfrage einer Suchmaschine nach oben beschriebenen Kriterien voraus. Bei der Selektion der ermittelten Expertenseiten wird nun geprüft, ob eine Website einen bestimmten Schwellwert überschreitet. Eine Expertenseite sollte z. B. über viele (mindestens 5) Verweise zu unabhängigen Seiten eines Themas verfügen. Zusätzliche Bewertungen berücksichtigen die Zugehörigkeit der ausgewählten Seiten zu einem bestimmten Hauptthema (Kunst, Wissenschaft , Sport,...). Indexieren der ExpertenBei der Erfassung von den Expertenseiten wird ein umgekehrter (invertierter) Index erstellt, in dem Schlüsselphrasen (Englisch: Keyphrases) aufgenommen werden, die das Vorkommen der Suchbegriffe in den Expertenseiten abbilden. Diese Keyphrasen sind Texte, die URLs auf einer Expertenseite beschreiben. Auch der Titel, die Überschriften und der Ankertext innerhalb der Expertenseite gelten als Keyphrasen. Nun werden die URLs nach folgenden Kriterien dediziert bewertet:
In diesem invertierten Index werden die Positionen der Übereinstimmungen der gegebenen Suchbegriffe innerhalb der Keyphrase (Titel, Überschrift, Ankertext) einer Expertenseite an Hand der Reihenfolge der Übereinstimmungen festgehalten. Zusätzlich wird für jeden Experten eine Liste aller Verweise innerhalb seiner Dokumentstruktur erstellt. Die Zahl der Schlüsselwörter innerhalb einer Keyphrase wird begrenzt, um einen Vorteil für längere Formulierungen auszuschließen. Fazit
Am Rande: Die massgeblichen Entwickler des Hilltop-Algorithmus sind Krishna Bharat und George Andrei Mihaila. Krishna Bharat, arbeitet inzwischen bei Google in der Forschungsabteilung. Es ist durchaus wahrscheinlich, dass Google auf einen Teil des Hilltop-Algorithmus schon jetzt zurückgreift. George A. Mihaila arbeitet beim “Thomas J. Watson” Research Center von IBM. Mehr Informationen finden Sie auch unter Hyperlink Induced Topic Search, PageRank und Information Retrieval Systeme (IRS). Datum: 26.07.2005 16:43 - Rubrik: A-Z Stichwortverzeichnis - Author: support
|
|||
| home | impressum | agb`s | kontakt | © 2004 - 2007 codecasters gmbh | |||