MENÜ MENÜ  

cover

IRStream: Konzeption und prototypische Implementierung eines Information Retrieval-Systems für strukturierte multimediale Dokumente

Günter Robbert

ISBN 978-3-8325-0644-5
363 pages, year of publication: 0
price: 40.50 €
Im Bereich des Information Retrievals gewinnt der Forschungsbereich der inhaltsbasierten Suche auf strukturieren bzw. multimedialen Dokumenten, insbesondere wegen dem stetig steigenden Interesse an XML, zunehmend an Bedeutung. Im Rahmen dieser Arbeit wird ein neues Konzept mit dem Namen IRStream vorgestellt, welches die Basis für die Entwicklung von Retrievalsystemen für die inhaltsbasierte Suche auf strukturierten multimedialen Dokumenten bildet. IRStream definiert einen Baukasten von aufeinander abgestimmten Bausteinen, die jeweils fest vordefinierte Aufgaben aus dem Bereich der Anfragebearbeitung, wie beispielsweise das Generieren initialer Rankinglisten oder das Kombinieren von Rankinglisten, übernehmen.

Im Vergleich zu anderen IR-Systemen oder Datenbank-gestützten Suchsystemen wird mit IRStream ein völlig neues Konzept für die Verarbeitung von Rankinglisten eingeführt und formal definiert. Hierbei handelt es sich um die sogenannte Stream-orientierte Anfragebearbeitung von inhaltsbasierten Suchanfragen, die sich von einer mengenorientierten Anfragebearbeitung dadurch unterscheidet, Suchergebnisse als Ströme aufzufassen, die inkrementell ausgelesen und weiterverarbeitet werden. Der entscheidende Vorteil dieses Konzepts ist, dass, im Gegensatz zur mengenorientierten Verarbeitung von Suchergebnissen, bei der Stream-orientierten Anfrageverarbeitung insbesondere sogenannte Top-k-Anfragen deutlich effizienter verarbeitet werden können. Alle von IRStream bereitgestellten Bausteine zur Verarbeitung von Streams arbeiten inkrementell und können fast beliebig miteinander kombiniert werden. Hierbei reicht schon eine kleine Menge unterschiedlicher Typen von Bausteinen aus, um auch komplexe inhaltsbasierte Suchanfragen zu ermöglichen. Suchanfragen können nun, ähnlich wie bei einem Legobaukasten, durch Kombination verschiedener Bausteine zusammengestellt werden, ohne das Vorkenntnisse in Anfragesprachen, wie SQL oder OQL, notwendig wären.

Diese Arbeit umfasst dabei nicht nur die Konzeption für die Entwicklung neuer IR-Systeme, vielmehr wurde die Tragfähigkeit des IRStream-Konzepts anhand einer prototypischen Umsetzung von IRStream, der IRStream Retrieval-Engine, untersucht. Um einen Prototypen basierend auf IRStream zu entwickeln, der den heutigen Anforderungen an ein IR-System entspricht, werden im Rahmen dieser Arbeit zuerst die Anforderungen spezifiziert, die ein IR-System nach Meinung des Autors heutzutage erfüllen sollte. Mehr noch wird der aktuelle Ist-Zustand heutiger IR-Systeme betrachtet und dabei auch aufgezeigt, welche Techniken bei der inhaltsbasierten Suche derzeit typischerweise zum Einsatz kommen.

Im Weiteren wird aber nicht nur der Ist-Zustand von IR-Systemen näher betrachtet, sondern auch untersucht, welche Möglichkeiten heutige Datenbankmanagementsysteme für die inhaltsbasierte Suche anbieten. Hierbei ergibt sich, dass Datenbankmanagementsysteme wie Oracle oder DB2 zwar schon rudimentäre Funktionalitäten für die inhaltsbasierte Suche anbieten, diese aber keinesfalls als ausreichend zur Realisierung umfassender Retrievalanwendungen erscheinen. Es konnte aufgezeigt werden, dass heutige DBMS insbesondere die Durchführung von Top-k-Anfragen noch nicht ausreichend effizient unterstützen. Dies liegt zum einen an der mengenorientierten Arbeitsweise der DBMS sowie der fehlenden Integration von geeigneten Indexstrukturen, die eine effiziente Durchführung von Top-k-Anfragen erlauben.

Um die Tragfähigkeit des IRStream-Konzepts zu untermauern, wird die IRStream Retrieval- Engine zahlreichen Evaluierungen unterzogen, in denen sowohl das Laufzeitverhalten als auch der Ressourcenbedarf der einzelnen Bausteine untersucht wird. Neben diesen rein technischen Eigenschaften wird aber auch die Qualität der von der IRStream Retrieval-Engine erzeugten Suchergebnisse evaluiert. Hierzu wurde die IRStream Retrieval-Engine im Rahmen der Evaluierungsinitiative INEX (Initiative for the Evaluation of XML Retrieval) als Retrievalsystem für XML-Dokumente eingesetzt und mit anderen IR-Systemen verglichen. Dabei zeigte sich, dass die IRStream Retrieval-Engine, insbesondere im Bereich der strukturbasierten Suche, gute Ergebnisse liefert und durchaus konkurrenzfähig im Vergleich zu anderen IR-Systemen ist.

Keywords:
  • Information Retrieval
  • Datenbanken
  • multimediale Dokumente
  • Multimedia
  • Retrievalsystem

BUYING OPTIONS

40.50 €
in stock
cover cover cover cover cover cover cover cover cover