Suchmaschine

Aus Copedia

Zurück zum Projekt: 2005-06_bosch-wissenslandkarte-USU

Beschreibung

"Suchmaschinen bieten die Möglichkeit, im WWW über Suchbegriffe Informationen zu suchen. Voraussetzung ist ein Verfahren, mit dem die Inhalte des WWW erschlossen und für die Suche aufbereitet werden. Dies geschieht über Indexierungsverfahren, die im WWW vorkommende Wörter zusammen mit den WWW-Dokumenten, in denen sie vorkommen, in einer Datenbank speichern. Die zahlreichen Suchmaschinen bieten Suchmöglichkeiten verschiedenster Komplexität und decken das WWW in unterschiedlichem Maße ab. Metasuchmaschinen kombinieren die Suchergebnisse mehrerer Suchmaschinen (Beispiel: MetaGer)." Entnommen aus dem T-Rex der Informationswissenschaft

Indexierungsverfahren

Bei der Indexierung werden Teile eines Dokumentes oder anderer Objekts (Bilder, Musik, oder ähnliches) extrahiert, die als annähernd repräsentativ für das Ge-samtobjekt angesehen werden. Im Fall von Texten sind dies Stichwörter, bei Bildern bzw. Filmen auch Farben oder Formen. Mit den gewonnenen Informationen wird ein gemeinsamer Index erstellt, dessen Einträge mit den jeweils dazugehörigen Dokument verknüpft werden. Indexierungsverfahren werden vor allem einge-setzt, um große Datenbestände, die in einer informationstechnisch verarbeitbaren Form vorliegen, in kurzer Zeit zu strukturieren. Der Zugriff auf Dokumente erfolgt dann durch eine Stichwortsuche, bei der nicht mehr in jedem einzelnen Objekt nach den Suchbegriffen gesucht wird, sondern über den Index auf das relevanten Dokument zugegriffen wird. Das Indexierungsverfahren wird bei fast alles Suchmaschinen verwendet, am, bekanntesten sind in diesem Zusammenhang Internetsuchmaschinen wie Googel. Hier komme unterschiedliche Indexierungsverfahren zum Einsatz: „Man unterscheidet zwischen automatischen, computergestützten und intellektuellen Verfahren zur Bestimmung der Indexelemente. Zudem wird unterschieden zwischen Freitextverfahren, in dem Indexelemente frei vergeben werden dürfen, und thesaurusbasierten Verfahren, in denen nur Deskriptoren aus einem vorgegebenen Vokabular vergeben werden dürfen.“ (http://server02.is.uni-sb.de/trex/index.php?query=indexierung&id=2.2.1.2.2.&suche=Y, Abruf am 6.10.05)Hauptsächlich kommen hier automatische, computergestützte Verfahren zum Einsatz, allerdings gibt es in kleinen Bereichen auch manuelle Verfahren zum Einsatz, z.B. bei der manuell gepflegten Katalogen.

Der wesentliche Vorteil des Verfahrens ist, v.a. auch bei dem Einsatz in abgegrenzten Datenbeständen, wie z.B. einem Intranet oder einem einzelnen Rechner, die Automatisierbarkeit durch Software und eine Beschleunigung des Suchvor-gangs. Andererseits ist die Trefferquote in vielen Fällen unbefriedigend, weil bisherige Systeme keine Anfrage in natürliche Sprache verarbeiten können. Ein weiterer negativer Aspekt ist, dass bei großen Datenbeständen die Trefferquote entsprechend hoch werden kann, wenn der Suchende nicht in der Lage ist, seine Suchanfrage entsprechend genau zu stellen, was auch aufgrund des Themas nicht immer möglich sein kann. Begriffe können nur durch „AND“, „OR“ und gelegentlich weitere Operatoren verknüpft werden. Dies ist aber nicht immer ausreichend, z.B. sucht Herr Müller ein Hotel an der Küste zwischen Hamburg und Kiel, kann keine der bisher gebräuchlichen Suchmaschine sinnvolle Ergebnisse liefern.

Relevanzbewertung

Je umfangreicher die Ergebnislisten werden, die die Suchmaschine liefern, desto wichtiger wird es, die Ergebnisse nach ihrer Relevanz zu bewerten. Fast jede Suchmaschine hat folglich ihre eigenen Kriterien, die das Ranking der Ergebnisse bestimmen. Die Ranking-Algorithmen die Kriterien bewerten, sind in der Regel ge-heim, die grundsätzlichen Kriterien sind aber bei fast alle Suchmaschinen gleich. So sind folgende Aspekte von Bedeutung

  • die Anzahl und die Stellung der Suchbegriffe im Dokument
  • Wörter in der Titel- oder Seitenüberschrift
  • Häufigkeit der Verweise von anderen Dokumenten auf das im Suchergeb-nis enthaltene Dokument
  • Einordnung der Qualität der verweisenden Dokumente (ein Verweis von einem als „gut“ klassifizierten Dokument ist mehr wert, wie ein Verweis von einem „schlechten“ Dokument)

(vgl. http://www.informationsarchiv.net/statisch/suchmaschinenoptimierung/ranking-kriterien.html, Abruf am 24.09.05

Diese Faktoren sind in erster Line für Internetsuchmaschinen von Bedeutung und es gibt natürlich noch weitere Faktoren die das PageRanking beeinflussen, sie sind aber mit geringen Einschränkungen auch für andere Suchmaschinen von Be-deutung. So spielt die z.B. die Häufigkeit der Verweise bei einer Suchmaschine die für eine firmeninterne Dateiablage genutzt wird in der Regel eine untergeord-nete Rolle, kann aber wieder von Bedeutung sein, wenn es Verweise der Doku-mente untereinander gibt oder Verknüpfungen von der Intranetseite auf das Do-kument existieren.

Weblinks