Suchmaschine: Unterschied zwischen den Versionen

Aus Copedia
Zeile 12: Zeile 12:
Das Indexierungsverfahren wird bei fast alles Suchmaschinen verwendet, am Bekanntesten sind in diesem Zusammenhang Internetsuchmaschinen wie Googel. Hier komme unterschiedliche Indexierungsverfahren zum Einsatz: „Man unterscheidet zwischen automatischen, computergestützten und intellektuellen Verfahren zur Bestimmung der Indexelemente. Zudem wird unterschieden zwischen Freitextverfahren, in dem Indexelemente frei vergeben werden dürfen, und thesaurusbasierten Verfahren, in denen nur Deskriptoren aus einem vorgegebenen Vokabular vergeben werden dürfen.“ (http://server02.is.uni-sb.de/trex/index.php?query=indexierung&id=2.2.1.2.2.&suche=Y, Abruf am 6.10.05)Hauptsächlich kommen bei Internsuchmaschinen allerdings automatische, computergestützte Verfahren zum Einsatz, allerdings gibt es in kleinen Bereichen auch manuelle Verfahren zum Einsatz, z.B. bei manuell gepflegten Katalogen.
Das Indexierungsverfahren wird bei fast alles Suchmaschinen verwendet, am Bekanntesten sind in diesem Zusammenhang Internetsuchmaschinen wie Googel. Hier komme unterschiedliche Indexierungsverfahren zum Einsatz: „Man unterscheidet zwischen automatischen, computergestützten und intellektuellen Verfahren zur Bestimmung der Indexelemente. Zudem wird unterschieden zwischen Freitextverfahren, in dem Indexelemente frei vergeben werden dürfen, und thesaurusbasierten Verfahren, in denen nur Deskriptoren aus einem vorgegebenen Vokabular vergeben werden dürfen.“ (http://server02.is.uni-sb.de/trex/index.php?query=indexierung&id=2.2.1.2.2.&suche=Y, Abruf am 6.10.05)Hauptsächlich kommen bei Internsuchmaschinen allerdings automatische, computergestützte Verfahren zum Einsatz, allerdings gibt es in kleinen Bereichen auch manuelle Verfahren zum Einsatz, z.B. bei manuell gepflegten Katalogen.


Der wesentliche Vorteil des Verfahrens ist, v.a. auch bei dem Einsatz in abgegrenzten Datenbeständen, wie z.B. einem Intranet oder einem einzelnen Rechner, die Automatisierbarkeit durch Software und eine Beschleunigung des Suchvorgangs. Andererseits ist die Trefferquote in vielen Fällen unbefriedigend, weil bisherige Systeme keine Anfrage in natürliche Sprache verarbeiten können. Ein weiterer negativer Aspekt ist, dass bei großen Datenbeständen die Trefferquote entsprechend hoch werden kann, wenn der Suchende nicht in der Lage ist, seine Suchanfrage entsprechend genau zu stellen, was auch aufgrund des Themas nicht immer möglich sein kann. Auch unterstützen viele Suchmaschinen zwar die Optimierung der Suche durch Operatoren („AND“, „OR“ und gelegentlich weitere). Dies ist aber nicht immer ausreichend, weil es der natürlichen Sprache noch weit unterlegen ist, z.B. sucht Herr Müller ein Hotel an der Küste zwischen Hamburg und Kiel, hier kann keine der bisher gebräuchlichen Suchmaschine sinnvolle Ergebnisse liefern.
Der wesentliche '''Vorteil''' des Verfahrens ist, v.a. auch bei dem Einsatz in abgegrenzten Datenbeständen, wie z.B. einem Intranet oder einem einzelnen Rechner, die Automatisierbarkeit durch Software und eine Beschleunigung des Suchvorgangs. Ein '''Nachteil''' ist, dass die Trefferquote in vielen Fällen unbefriedigend ist, weil bisherige Systeme keine Anfrage in natürliche Sprache verarbeiten können. Ein weiterer negativer Aspekt ist, dass bei großen Datenbeständen die Trefferquote entsprechend hoch werden kann, wenn der Suchende nicht in der Lage ist, seine Suchanfrage entsprechend genau zu stellen, was auch aufgrund des Themas nicht immer möglich sein kann. Auch unterstützen viele Suchmaschinen zwar die Optimierung der Suche durch Operatoren („AND“, „OR“ und gelegentlich weitere). Dies ist aber nicht immer ausreichend, weil es der natürlichen Sprache noch weit unterlegen ist, z.B. sucht Herr Müller ein Hotel an der Küste zwischen Hamburg und Kiel, hier kann keine der bisher gebräuchlichen Suchmaschine sinnvolle Ergebnisse liefern.


==Relevanzbewertung==
==Relevanzbewertung==

Version vom 24. November 2005, 14:13 Uhr

Zurück zum Projekt: 2005-06_bosch-wissenslandkarte-USU

Beschreibung

"Suchmaschinen bieten die Möglichkeit, im WWW über Suchbegriffe Informationen zu suchen. Voraussetzung ist ein Verfahren, mit dem die Inhalte des WWW erschlossen und für die Suche aufbereitet werden. Dies geschieht über Indexierungsverfahren, die im WWW vorkommende Wörter zusammen mit den WWW-Dokumenten, in denen sie vorkommen, in einer Datenbank speichern. Die zahlreichen Suchmaschinen bieten Suchmöglichkeiten verschiedenster Komplexität und decken das WWW in unterschiedlichem Maße ab. Metasuchmaschinen kombinieren die Suchergebnisse mehrerer Suchmaschinen (Beispiel: MetaGer)." Entnommen aus dem T-Rex der Informationswissenschaft Die wichtigen Aufgaben einer Suchmaschine sind:

  • Indizierung von Datenquellen
  • Verarbeitung von Suchanfragen
  • Aufbereitung und Relevanzbewertung der Ergebnisse

Indexierungsverfahren

Bei der Indexierung werden Teile eines Dokumentes oder anderer Objekts (Bilder, Musik, oder ähnliches) extrahiert, die als annähernd repräsentativ für das Gesamtobjekt angesehen werden. Im Fall von Texten sind dies Stichwörter, bei Bildern bzw. Filmen auch Farben oder Formen. Mit den gewonnenen Informationen wird ein gemeinsamer Index erstellt, dessen Einträge mit den jeweils dazugehörenden Dokument verknüpft werden. Indexierungsverfahren werden vor allem einge-setzt, um große Datenbestände, die in einer informationstechnisch verarbeitbaren Form vorliegen, in kurzer Zeit zu strukturieren. Der Zugriff auf Dokumente erfolgt dann durch eine Stichwortsuche, bei der nicht mehr in jedem einzelnen Objekt nach den Suchbegriffen gesucht wird, sondern über den Index auf das relevanten Dokument zugegriffen wird. Das Indexierungsverfahren wird bei fast alles Suchmaschinen verwendet, am Bekanntesten sind in diesem Zusammenhang Internetsuchmaschinen wie Googel. Hier komme unterschiedliche Indexierungsverfahren zum Einsatz: „Man unterscheidet zwischen automatischen, computergestützten und intellektuellen Verfahren zur Bestimmung der Indexelemente. Zudem wird unterschieden zwischen Freitextverfahren, in dem Indexelemente frei vergeben werden dürfen, und thesaurusbasierten Verfahren, in denen nur Deskriptoren aus einem vorgegebenen Vokabular vergeben werden dürfen.“ (http://server02.is.uni-sb.de/trex/index.php?query=indexierung&id=2.2.1.2.2.&suche=Y, Abruf am 6.10.05)Hauptsächlich kommen bei Internsuchmaschinen allerdings automatische, computergestützte Verfahren zum Einsatz, allerdings gibt es in kleinen Bereichen auch manuelle Verfahren zum Einsatz, z.B. bei manuell gepflegten Katalogen.

Der wesentliche Vorteil des Verfahrens ist, v.a. auch bei dem Einsatz in abgegrenzten Datenbeständen, wie z.B. einem Intranet oder einem einzelnen Rechner, die Automatisierbarkeit durch Software und eine Beschleunigung des Suchvorgangs. Ein Nachteil ist, dass die Trefferquote in vielen Fällen unbefriedigend ist, weil bisherige Systeme keine Anfrage in natürliche Sprache verarbeiten können. Ein weiterer negativer Aspekt ist, dass bei großen Datenbeständen die Trefferquote entsprechend hoch werden kann, wenn der Suchende nicht in der Lage ist, seine Suchanfrage entsprechend genau zu stellen, was auch aufgrund des Themas nicht immer möglich sein kann. Auch unterstützen viele Suchmaschinen zwar die Optimierung der Suche durch Operatoren („AND“, „OR“ und gelegentlich weitere). Dies ist aber nicht immer ausreichend, weil es der natürlichen Sprache noch weit unterlegen ist, z.B. sucht Herr Müller ein Hotel an der Küste zwischen Hamburg und Kiel, hier kann keine der bisher gebräuchlichen Suchmaschine sinnvolle Ergebnisse liefern.

Relevanzbewertung

Je umfangreicher die Ergebnislisten werden, die die Suchmaschine liefern, desto wichtiger wird es, die Ergebnisse nach ihrer Relevanz zu bewerten. Fast jede Suchmaschine hat folglich ihre eigenen Kriterien, die das Ranking der Ergebnisse bestimmen. Die Ranking-Algorithmen die die Kriterien bewerten, sind in der Regel geheim, die grundsätzlichen Kriterien sind aber bei fast alle Suchmaschinen gleich. So sind folgende Aspekte von Bedeutung

  • die Anzahl und die Stellung der Suchbegriffe im Dokument
  • Wörter in der Titel- oder Seitenüberschrift
  • Häufigkeit der Verweise von anderen Dokumenten auf das im Suchergebnis enthaltene Dokument
  • Einordnung der Qualität der verweisenden Dokumente (ein Verweis von einem als „gut“ klassifizierten Dokument ist mehr wert, wie ein Verweis von einem „schlechten“ Dokument)

(vgl. http://www.informationsarchiv.net/statisch/suchmaschinenoptimierung/ranking-kriterien.html, Abruf am 24.09.05

Diese Faktoren sind in erster Line für Internetsuchmaschinen von Bedeutung und es gibt natürlich noch weitere Faktoren die das PageRanking beeinflussen. diese Kriterien sind aber mit geringen Einschränkungen auch für andere Suchmaschinen von Bedeutung. So spielt die z.B. die Häufigkeit der Verweise bei einer Suchmaschine die für eine firmeninterne Dateiablage genutzt wird in der Regel eine untergeordnete Rolle, kann aber wieder von Bedeutung sein, wenn es Verweise der Dokumente untereinander gibt oder Verknüpfungen von der Intranetseite auf das Do-kument existieren.

Weblinks