Visual Concept Detection in Images and Videos

The rapidly increasing proliferation of digital images and videos leads to a situation where content-based search in multimedia databases becomes more and more important. A prerequisite for effective image and video search is to analyze and index media content automatically. Current approaches in th...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
1. Verfasser: Mühling, Markus
Beteiligte: Freisleben, Bernd (Prof. Dr.) (BetreuerIn (Doktorarbeit))
Format: Dissertation
Sprache:Englisch
Veröffentlicht: Philipps-Universität Marburg 2014
Schlagworte:
Online Zugang:PDF-Volltext
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!

Aufgrund der starken Verbreitung digitaler Bild- und Videodaten wächst der Bedarf an Möglichkeiten zur inhaltsbasierten Suche. Hierzu sind Verfahren, welche Bilder und Videos automatisch mit entsprechenden Annotationen versehen, erforderlich. Aktuelle Forschungsansätze im Bereich Bild- und Videoretrieval basieren auf semantischen Konzepten, die als intermediäre Beschreibung dienen, um die “semantische Lücke” zwischen der Datenrepräsentation und der menschlichen Interpretation des Inhalts zu schließen. Die Detektion beliebiger visueller Konzepte stellt aufgund der hohen Komplexität und Variabilität im Erscheinungsbild eine große Herausforderung dar. Die vorliegende Arbeit befasst sich mit folgenden Aspekten zur visuellen Konzeptdetektion in Bildern und Videos: Erstens werden verbesserte lokale Deskriptoren für die Kodierung von Mid-Level Merkmalen präsentiert. Basierend auf der Beobachtung, dass Scale-Invariant Feature Transform (SIFT) Deskriptoren mit unterschiedlichen räumlichen Ausdehnungen große Performanceunterschiede pro Konzept erzielen, wird ein neuer Ansatz zur Konzeptdetektion vorgestellt. Dieser kombiniert Merkmalsrepräsentationen für unterschiedliche räumliche Ausdehnungen mittels Multiple Kernel Learning. Zur Konzeptdetektion in Videos wird ein multimodales System vorgeschlagen, welches das Bag-of-Words Verfahren auf visuelle Merkmale und insbesondere auf Audiomerkmale anwendet. Zudem wird eine Methode zur SIFT-basierten Integration von Farbinformationen, Color Moment SIFT genannt, eingeführt. Experimentelle Ergebnisse demonstrieren die hervorragende Performanz der vorgeschlagenen Ansätze auf der Mediamill sowie auf der VOC Challenge. Diese Merkmale werden als zusätzliche Eingabe für die Support Vector Machine (SVM)-basierten Konzeptklassifizierer verwendet. Somit können auch indirekte Konzepte von Objekt-basierten Merkmalen profitieren. Umfangreiche Experimente auf der Mediamill, VOC und TRECVid Challenge zeigen signifikante Verbesserungen der Retrieval-Performance, nicht nur für die Objektklassen selbst sondern insbesondere für eine große Anzahl indirekt im Zusammenhang mit den Objektklassen stehender Konzepte. Es konnte gezeigt werden, dass bereits eine geringe Anzahl Objekt-basierter Merkmale für eine große Anzahl an Konzeptklassen vorteilhaft ist. Auf der VOC Challenge wurde durch das Hinzunehmen Objekt-basierter Merkmale eine herausragende Performanz von im Schnitt 63.8% Average Precision erzielt. Desweiteren wurde die Generalisierungsfähigkeit von Konzeptmodellen untersucht. So wurde gezeigt, dass unterschiedliche Quell- und Zieldomänen zu einem schwerwiegenden Performanzverlust führen und dass Objekt-basierte Merkmale die Domänen-übergreifende Performanz in der Konzeptdetektion deutlich verbessern. Da es sich als ineffizient erwiesen hat, eine große Anzahl von Single-Class Objektdetektoren anzuwenden, wurde ferner ein Multi-Class System basierend auf Hough-Forests zur Beschleunigung der Detektion mehrerer Objektklassen in Bildern vorgeschlagen. Drittens wird ein neuartiger rein Web-überwachter Lernansatz zur Modellierung heterogener Konzeptklassen in Bildern vorgestellt. Annotationen von Multimediadaten im WWW sind ergiebige Informationsquellen, welche zum Lernen visueller Konzepte herangezogen werden können. Der präsentierte Ansatz zielt auf ein kontinuierliches langfristiges Lernen von Modellen und deren periodischer Verbesserung ab. Zu diesem Zweck wurden mehrere Komponeneten entwickelt, darunter ein Webcrawler, eine multi-modale Clustering-Komponente zur Spamdetektion und zur Erkennung von Unterklassen, ein neuartiges Lernverfahren, das sog. “Random Savanna” sowie eine Validierungs-, eine Aktualisierungs- und eine Skalierbarkeitskomponente. Ein einziges Wort zur Beschreibung des visuellen Konzepts reicht aus, um den Lernprozess zu starten. Experimentelle Ergebnisse demonstrieren die Leistungsfähigkeit der einzelnen Komponenten. Schließlich wird ein generisches System zur visuellen Konzeptdetektion vorgestellt, welches zur Unterstützung interdisziplinärer Forschung im Bereich Psychologie und Medienwissenschaften eingesetzt wird. Um Einblick in die Wechselbeziehung von gewalttätigen Spielereignissen und der Gehirnaktivität des Spielers zu gewinnen, wurden neuartige semantische Konzepte, allen voran “Gewalt”, in Computerspielvideos detektiert. Experimentelle Ergebnisse zeigen die exzellente Performanz des vorgeschlagenen generischen Ansatzes zur automatischen Konzeptdetektion für derartige interdisziplinäre Forschung.