Publikationsserver der Universitätsbibliothek Marburg

Titel:Self-Organization of Spiking Neural Networks for Visual Object Recognition
Autor:Michler, Frank
Weitere Beteiligte: Wachtler, Thomas (Prof. Dr.)
Veröffentlicht:2019
URI:https://archiv.ub.uni-marburg.de/diss/z2020/0064
URN: urn:nbn:de:hebis:04-z2020-00645
DOI: https://doi.org/10.17192/z2020.0064
DDC:570 Biowissenschaften, Biologie
Titel(trans.):Selbstorganisation spikender neuronaler Netze für visuelle Objekterkennung
Publikationsdatum:2020-02-04
Lizenz:https://creativecommons.org/licenses/by-nc-sa/4.0

Dokument

Schlagwörter:
Predictive Coding, Objekterkennung, Topographische Karten, Learning, Spiking Neural Networks, Visuelle Objekterkennung, Visuelles System, Topographic Maps, Visual Object Recognition, Künstliche Intelligenz, Gehirn, Maschinelles Lernen

Summary:
On one hand, the visual system has the ability to differentiate between very similar objects. On the other hand, we can also recognize the same object in images that vary drastically, due to different viewing angle, distance, or illumination. The ability to recognize the same object under different viewing conditions is called invariant object recognition. Such object recognition capabilities are not immediately available after birth, but are acquired through learning by experience in the visual world. In many viewing situations different views of the same object are seen in a tem- poral sequence, e.g. when we are moving an object in our hands while watching it. This creates temporal correlations between successive retinal projections that can be used to associate different views of the same object. Theorists have therefore pro- posed a synaptic plasticity rule with a built-in memory trace (trace rule). In this dissertation I present spiking neural network models that offer possible explanations for learning of invariant object representations. These models are based on the following hypotheses: 1. Instead of a synaptic trace rule, persistent firing of recurrently connected groups of neurons can serve as a memory trace for invariance learning. 2. Short-range excitatory lateral connections enable learning of self-organizing topographic maps that represent temporal as well as spatial correlations. 3. When trained with sequences of object views, such a network can learn repre- sentations that enable invariant object recognition by clustering different views of the same object within a local neighborhood. 4. Learning of representations for very similar stimuli can be enabled by adaptive inhibitory feedback connections. The study presented in chapter 3.1 details an implementation of a spiking neural network to test the first three hypotheses. This network was tested with stimulus sets that were designed in two feature dimensions to separate the impact of tempo- ral and spatial correlations on learned topographic maps. The emerging topographic maps showed patterns that were dependent on the temporal order of object views during training. Our results show that pooling over local neighborhoods of the to- pographic map enables invariant recognition. Chapter 3.2 focuses on the fourth hypothesis. There we examine how the adaptive feedback inhibition (AFI) can improve the ability of a network to discriminate between very similar patterns. The results show that with AFI learning is faster, and the network learns selective representations for stimuli with higher levels of overlap than without AFI. Results of chapter 3.1 suggest a functional role for topographic object representa- tions that are known to exist in the inferotemporal cortex, and suggests a mechanism for the development of such representations. The AFI model implements one aspect of predictive coding: subtraction of a prediction from the actual input of a system. The successful implementation in a biologically plausible network of spiking neurons shows that predictive coding can play a role in cortical circuits.

Zusammenfassung:
Unser visuelles System hat zum einen die Fähigkeit, sehr ähnliche Objekte zu unter- scheiden. Zum anderen können wir dasselbe Objekt wiedererkennen, obwohl sich seine Abbildung auf der Netzhaut aufgrund des Blickwinkels, des Abstandes oder der Beleuchtung stark unterscheiden kann. Diese Fähigkeit, dasselbe Objekt in un- terschiedlichen Netzhaut-Bildern wiederzuerkennen, wird als invariante Objekterken- nung bezeichnet und ist noch nicht sofort nach der Geburt verfügbar. Sie wird erst durch Erfahrung mit unserer visuellen Umwelt erlernt. Häufig sehen wir verschiedene Ansichten desselben Objektes in einer zeitlichen Abfolge, zum Beispiel wenn es sich selbst bewegt oder wir es in unserer Hand be- wegen, während wir es betrachten. Dies erzeugt zeitliche Korrelationen zwischen aufeinander folgenden Netzhaut-Bildern, die dazu verwendet werden können, ver- schiedene Ansichten desselben Objektes miteinander zu assoziieren. Theoretiker ver- muten daher, dass eine synaptische Lernregel mit einer eingebauten Gedächtnisspur (englisch: trace rule) dazu verwendet werden kann, invariante Objektrepräsentatio- nen zu lernen. In dieser Dissertation stelle ich Modelle für impulskodierende neuronale Netze (englisch: spiking neural networks) zum Lernen invarianter Objektrepräsentationen vor, die auf folgenden Hypothesen beruhen: 1. Anstelle einer synaptischen trace rule kann persistente Spike-Aktivität von ver- netzten Neuronengruppen als eine Gedächtnis-Spur für Invarianz-Lernen die- nen. 2. Kurzreichweitige laterale Verbindungen ermöglichen das Lernen von selbst organisierenden topographischen Karten, welche neben räumlichen auch zeit- liche Korrelationen abbilden. 3. Wird ein solches Netzwerk mit Bildern von kontinuierlich rotierenden Objek- ten trainiert, so kann es Repräsentationen lernen, in denen Ansichten dessel- ben Objekts benachbart sind. Derartige Objekttopographien können invariante Objekterkennung ermöglichen. 4. Das Lernen von Repräsentationen sehr ähnlicher Muster kann durch anpas- sungsfähige inhibierende Feedback-Verbindungen ermöglicht werden. Die in Kapitel 3.1 vorgestellte Studie legt die Implementierung eines impulsko- dierenden neuronalen Netzes dar, an welchem die ersten drei Hypothesen überprüft wurden. Das Netzwerk wurde mit Stimulus-Sets getestet, in denen die Stimuli in zwei Merkmalsdimensionen so angeordnet waren, dass sich der Einfluss von zeitli- chen und räumlichen Korrelationen auf die gelernten topographischen Karten tren- nen ließ. Die entstandenen topographischen Karten wiesen Muster auf, welche von der zeitlichen Reihenfolge der beim Lernen präsentierten Objektansichten abhin- gen. Unsere Ergebnisse zeigen, dass durch die Zusammenfassung der neuronalen Aktivitäten aus einer lokalen Nachbarschaft der topographischen Karten invariante Objekterkennung ermöglicht wird. Das Kapitel 3.2 beschäftigt sich mit der vierten Hypothese. In dieser Publikation wurden die Untersuchungen dazu beschrieben, wie adaptive Feedback-Inhibition (AFI) die Fähigkeit eines Netzwerkes verbessern kann, zwischen sehr ähnlichen Mustern zu unterscheiden. Die Ergebnisse zeigen, dass mit AFI schneller stabile Muster-Repräsentationen gelernt wurden und dass Muster mit einem höheren Grad an Ähnlichkeit unterschieden werden konnten als ohne AFI. Die Ergebnisse von Kapitel 3.1 zeigen eine funktionale Rolle für topographische Objekt-Repräsentationen auf, welche aus dem inferotemporalen Kortex bekannt sind, und erklären, wie diese sich herausbilden können. Das AFI-Modell setzt einen Aspekt der Predictive Coding-Theorie um: die Subtraktion einer Vorhersage vom tatsächli- chen Input eines Systems. Die erfolgreiche Implementierung dieses Konzepts in ei- nem biologisch plausiblen Netzwerk impulskodierender Neuronen zeigt, dass das Predictive Coding-Prinzip in kortikalen Schaltkreisen eine Rolle spielen kann.


* Das Dokument ist im Internet frei zugänglich - Hinweise zu den Nutzungsrechten