Using Search Term Positions for Determining Document Relevance

The technological advancements in computer networks and the substantial reduction of their production costs have caused a massive explosion of digitally stored information. In particular, textual information is becoming increasingly available in electronic form. Finding text documents dealing wi...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
1. Verfasser: Galeas, Patricio
Beteiligte: Freisleben, Bernd (Prof. Dr.) (BetreuerIn (Doktorarbeit))
Format: Dissertation
Sprache:Englisch
Veröffentlicht: Philipps-Universität Marburg 2010
Schlagworte:
Online Zugang:PDF-Volltext
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!

Die technologischen Fortschritte bei Rechnernetzen und die erhebliche Senkung ihrer Produktionskosten haben ein gewaltiges Wachstum von digital gespeicherten Daten verursacht. Besonders die Verfügbarkeit von Textinformationen im Internet nimmt ständig zu. In dieser Situation ist das Finden von relevanten Informationen keine einfache Aufgabe mehr. Benutzer brauchen ständig effizientere Werkzeuge, um relevante Dokumente aus dem riesigen Datenbestand zu extrahieren. Da traditionelle Algorithmen im Bereich des Information Retrieval (IR) in der Regel nur auf Worthäufigkeiten basieren, haben sie mittlerweile ihre Leistungsgrenzen erreicht. Auf der anderen Seite können die neuesten Methoden aktueller Suchmaschinen, die auf Hyperlink-Informationen zurückgreifen, nur in verlinkten Dokumenten verwendet werden. Alle Dokumente, die keine Hyperlink-Informationen ent-halten, können meistens nur mit traditionellen (Wort-Häufigkeits-) Methoden ausgewertet werden. IR-Methoden, die Informationen über die Positionen von Suchbegriffen in Dokumenten berücksichtigen, haben das Potenzial, bessere Ergebnisse als Standard-Methoden zu liefern. Der Grund ist, dass positionsbasierte Methoden die Suchbegriffe in ihrem Kontext bzw. ihrer Nachbarschaft innerhalb eines Dokumentes betrachten. Das heißt, die Position eines Wortes hilft, die Bedeutung eines anderen Wortes abzuklären. Allerdings bedeutet die Auswertung von räumlichen Informationen auch aufwändige Berechnungen, was die positionsbasierten Algorithmen langsamer und platzraubender machen. Solche Nachteile wirken sich unmittelbar auf die Performanz der wichtigsten Phase des Retrieval-Prozesses aus: der Auswertung einer Anfrage eines Benutzers. Aus diesem Grund werden heutzutage positionsbasierte Algorithmen in Suchmaschinen selten verwendet. Diese Doktorarbeit untersucht die Möglichkeit, ein traditionelles IR-System mit positionsbasierten Informationen auf eine neue Weise zu erweitern und durch die Auswertung dieser Informationen die Performanz des Systems zur Anfragezeit zu verbessern. Um dieses Ziel zu erreichen, werden unterschiedliche Darstellungen von Wortpositionen in einem Dokument untersucht. Im Gauss-Modell werden Methoden deskriptiver Statistik verwendet, weil sie für die typischen Unregelmäßigkeiten und Ausreißer in den positionsbasierten Daten geeignet sind. Das Fourier-Modell basiert auf Fourierreihen zur Repräsentation positionsbasierter Informationen. Im Hilbert-Modell werden Methoden der Funktionalanalysis für das Speichern und Bearbeiten von Wortpositionen eingesetzt. Alle vorgeschlagenen Modelle werden mit Standard-Datenbeständen der IR-Gemeinschaft (Text Retrieval Conference) evaluiert. In den Experimenten wird gezeigt, dass die Verwendung von positionsbasierten Informationen die Qualität der Suchergebnisse erhöht und die Leistung von aktuellen Ansätzen übertrifft. Die positionsbasierten Modelle eröffnen neue Möglichkeiten zur Analyse von textuellen Daten. Zum Beispiel sind die Clusterung von Dokumenten und die Komprimierung von positionsbasierten Daten basierend auf diesen Modellen interessante Themen für die zukünftige Forschung.