Die funktionserhaltende, integrative Genselektion: Eine Methode zur Reduktion von krankheitsbezogenen Gensätzen auf ihre Schlüsselkomponenten

Durch den technischen Fortschritt der letzten Jahre werden in immer kürzerer Zeit immer größere Mengen von Daten mit tausenden und abertausenden Merkmalen gesammelt [Stańczyk/Jain, 2017], [H. Liu/Motoda, 2012]. Um diese unüberschaubar große Datenflut nutzbringend einzusetzen, werden computergestützt...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
1. Verfasser: Lippmann, Catharina
Beteiligte: Ultsch, Alfred (Prof. Dr.) (BetreuerIn (Doktorarbeit))
Format: Dissertation
Sprache:Deutsch
Veröffentlicht: Philipps-Universität Marburg 2020
Schlagworte:
Online Zugang:PDF-Volltext
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:Durch den technischen Fortschritt der letzten Jahre werden in immer kürzerer Zeit immer größere Mengen von Daten mit tausenden und abertausenden Merkmalen gesammelt [Stańczyk/Jain, 2017], [H. Liu/Motoda, 2012]. Um diese unüberschaubar große Datenflut nutzbringend einzusetzen, werden computergestützte Auswertungsmethoden benötigt, die die Wissenschaftler bei der Extraktion von nützlichen Informationen bzw. Wissen unterstützen [Fayyad et al., 1996]. Ein Ansatz dazu sind Methoden der „Feature Selection“. In der vorliegenden Arbeit wird ein solcher Algorithmus beispielhaft für Gensätze entwickelt, die anhand von aktuellem Wissen über die genetische Architektur von Merkmalen oder Krankheiten gefunden wurden. Es ist dabei nicht notwendig, numerische Messwerte aus Experimenten für die einzelnen Gene zu kennen, da ein integrativer Ansatz verfolgt wird, der die Gene Ontology Wissensbasis [Ashburner et al., 2000] als Grundlage für das Kriterium zur Auswahl der wichtigsten Gene verwendet. Die hier vorgestellte funktionserhaltende, integrative Genselektion reduziert eine Menge von Genen auf ihre wichtigsten Elemente, indem für jedes Gen ein Score berechnet wird, der die Wichtigkeit der Gene beschreibt. Dieser Score wird mithilfe der Annotationen der Gene zu den signifikanten, biologischen Prozessen in der polyhierarchisch organisierten Gene Ontology Wissensbasis ermittelt. Der sich ergebende gerichtete, azyklische Graph (DAG) von signifikanten, biologischen Prozessen beschreibt die Genfunktionen des Datensatzes von Genen. Mit dem Gen-Score können die Gene in eine Rangfolge entsprechend ihrer Wichtigkeit gebracht werden. Die ersten k∗ Gene bilden eine optimale Teilmenge, wobei diejenige Teilmenge der Gene ausgewählt wird, die die beste funktionserhaltende Eigenschaft hat. Die Funktionserhaltung wird dabei über Precision und Recall bzw. deren Verrechnung zum F1-Maß bezüglich der Reproduktion des gesamten DAGs mit der gewählten Teilmenge bewertet. Mit der funktionserhaltenden, integrativen Genselektion konnte für die untersuchten Gensätze der ursprüngliche DAG jeweils mit Recall und Precision von etwa 70% reproduziert werden, wobei nur etwa 5% der ursprünglichen Gene verwendet wurden. Die wichtigsten Ergebnisse dieser Dissertation konnten bereits erfolgreich peer-reviewed publiziert werden: [Lippmann et al., 2019].
Umfang:94 Seiten
DOI:10.17192/z2020.0514