Publikationsserver der Universitätsbibliothek Marburg

Titel:Die funktionserhaltende, integrative Genselektion: Eine Methode zur Reduktion von krankheitsbezogenen Gensätzen auf ihre Schlüsselkomponenten
Autor:Lippmann, Catharina
Weitere Beteiligte: Ultsch, Alfred (Prof. Dr.)
Veröffentlicht:2020
URI:https://archiv.ub.uni-marburg.de/diss/z2020/0514
URN: urn:nbn:de:hebis:04-z2020-05144
DOI: https://doi.org/10.17192/z2020.0514
DDC:510 Mathematik
Titel (trans.):The functions-preserving, integrative gene selection: A method for reduction of disease-related gene sets to their key components
Publikationsdatum:2020-11-10
Lizenz:https://rightsstatements.org/vocab/InC-NC/1.0/

Dokument

Schlagwörter:
Feature Selektion, important genes, gene set, wichtigste Gene, gerichteter azyklischer Graph, directed acyclic graph, Gene Ontology, Gene Ontology, Auswahl, Feature Selection, Ontologie, reduction to key components

Zusammenfassung:
Durch den technischen Fortschritt der letzten Jahre werden in immer kürzerer Zeit immer größere Mengen von Daten mit tausenden und abertausenden Merkmalen gesammelt [Stańczyk/Jain, 2017], [H. Liu/Motoda, 2012]. Um diese unüberschaubar große Datenflut nutzbringend einzusetzen, werden computergestützte Auswertungsmethoden benötigt, die die Wissenschaftler bei der Extraktion von nützlichen Informationen bzw. Wissen unterstützen [Fayyad et al., 1996]. Ein Ansatz dazu sind Methoden der „Feature Selection“. In der vorliegenden Arbeit wird ein solcher Algorithmus beispielhaft für Gensätze entwickelt, die anhand von aktuellem Wissen über die genetische Architektur von Merkmalen oder Krankheiten gefunden wurden. Es ist dabei nicht notwendig, numerische Messwerte aus Experimenten für die einzelnen Gene zu kennen, da ein integrativer Ansatz verfolgt wird, der die Gene Ontology Wissensbasis [Ashburner et al., 2000] als Grundlage für das Kriterium zur Auswahl der wichtigsten Gene verwendet. Die hier vorgestellte funktionserhaltende, integrative Genselektion reduziert eine Menge von Genen auf ihre wichtigsten Elemente, indem für jedes Gen ein Score berechnet wird, der die Wichtigkeit der Gene beschreibt. Dieser Score wird mithilfe der Annotationen der Gene zu den signifikanten, biologischen Prozessen in der polyhierarchisch organisierten Gene Ontology Wissensbasis ermittelt. Der sich ergebende gerichtete, azyklische Graph (DAG) von signifikanten, biologischen Prozessen beschreibt die Genfunktionen des Datensatzes von Genen. Mit dem Gen-Score können die Gene in eine Rangfolge entsprechend ihrer Wichtigkeit gebracht werden. Die ersten k∗ Gene bilden eine optimale Teilmenge, wobei diejenige Teilmenge der Gene ausgewählt wird, die die beste funktionserhaltende Eigenschaft hat. Die Funktionserhaltung wird dabei über Precision und Recall bzw. deren Verrechnung zum F1-Maß bezüglich der Reproduktion des gesamten DAGs mit der gewählten Teilmenge bewertet. Mit der funktionserhaltenden, integrativen Genselektion konnte für die untersuchten Gensätze der ursprüngliche DAG jeweils mit Recall und Precision von etwa 70% reproduziert werden, wobei nur etwa 5% der ursprünglichen Gene verwendet wurden. Die wichtigsten Ergebnisse dieser Dissertation konnten bereits erfolgreich peer-reviewed publiziert werden: [Lippmann et al., 2019].


* Das Dokument ist im Internet frei zugänglich - Hinweise zu den Nutzungsrechten