Extracting Textual Information from Images and Videos for Automatic Content-Based Annotation and Retrieval
One way to utilize semantic knowledge for annotating databases of digital images and videos is to use the textual information which is present. Usually, it provides important information about the content and is a very good entity for queries based on keywords. In this context, the extraction of sce...
Main Author: | |
---|---|
Contributors: | |
Format: | Doctoral Thesis |
Language: | English |
Published: |
Philipps-Universität Marburg
2007
|
Subjects: | |
Online Access: | PDF Full Text |
Tags: |
Add Tag
No Tags, Be the first to tag this record!
|
Die in digitalen Bildern und Videos vorhandene textuelle Information bietet eine hervorragende Möglichkeit, um semantisches Wissen in den Prozess der Indexierung von Bild- und Videodatenbeständen einfließen zu lassen. Die Verbindung dieser Information mit dem Inhalt der digitalen Medien ermöglicht wortbasierte Abfragen, die diese textuelle Information ausnutzen. Deshalb ist die Textextraktion aus Bildern und Videos im Rahmen von automatischen inhaltsbasierten Suchsystemen von großer Bedeutung. Die Textextraktion aus Bildern und Videos besteht aus folgenden Schritten. - Die Textdetektion definiert den Prozess der Identifizierung der Regionen in Bildern, in denen Text erscheint. - Die Textlokalisierung baut auf der Textdetektion auf und verschmilzt die gleichem Text zugehörigen Regionen zwecks Bestimmung der exakten Textposition. - Die Textverfolgung in Videos realisiert die Verfolgung von zuvor lokali- siertem Text über mehrere aufeinander folgende Einzelbilder hinweg. - Die Textsegmentierung und Textbinärisierung} ist der Prozess der Trennung der Textpixel und Hintergrundpixel. Die Ausgabe dieses Schritts ist ein binäres Bild, in dem die Zeichen schwarz auf einem weißen Hintergrund erscheinen. - Die Zeichenerkennung verfolgt das Ziel der Extraktion von ASCII-Text aus einem binären Bild mittels optischer Zeichenerkennung. Diese Arbeit stellt ein robustes System für die automatische Extraktion von Text in Bildern und Videos vor. Verschiedene Algorithmen werden für jedes der oben genannten Probleme präsentiert. Das System kann sowohl mit JPEG Bildern als auch mit MPEG-1 Videos arbeiten. Die experimentellen Ergebnisse dokumentieren die Güte der einzelnen Schritte und deren Kombination. Da Text in Bildern in unterschiedlichen Schriften (z. B. ideographische Schrift oder lateinische Schrift) erscheinen kann, ermöglicht die vorherige Erkennung der Schrift eine bessere Textsegmentierung oder Texterkennung. Für diesen Zweck wird eine Methode zur Schrifterkennung in Bildern mit komplexem Hintergrund vorgestellt. Des Weiteren ist eine neue Methode entwickelt worden, um den holistischen Vergleich zwischen Textbildern zu ermöglichen. Im Rahmen der inhaltsbasierten Suche sind solche Ansätze von Interesse, um die Suche nach Bildern mit ähnlichen Textvorkommen zu vereinfachen. Außerdem gewinnt die Suche anhand von Beispielen im Rahmen von inhaltsbasierter Suche zunehmend an Bedeutung. Seit Kurzem sind Relevanz-Feedback-Verfahren in den Blickpunkt des Interesses gerückt, da sie Benutzern die Möglichkeit bieten, mit dem System zu interagieren. Darüber hinaus wächst der Bedarf für Methoden zur Visualisierung und Exploration („Browsing“) von Bilddatenbeständen, begründet durch deren zunehmende Größe und dem daraus resultierenden Benutzerinteresse, schnell und einfach diese großen Bestände durchsuchen zu können. Daher werden neue Methoden vorgeschlagen, die den Benutzer während dieses semantischen Suchprozesses unterstützen.