Dissection of Complex Genetic Correlations into Interaction Effects

Living systems are overwhelmingly complex and consist of many interacting parts. Already the quantitative characterization of a single human cell type on genetic level requires at least the measurement of 20000 gene expressions. It remains a big challenge for theoretical approaches to discover patte...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
1. Verfasser: Grau, Michael
Beteiligte: Lenz, Peter (Prof. Dr.) (BetreuerIn (Doktorarbeit))
Format: Dissertation
Sprache:Englisch
Veröffentlicht: Philipps-Universität Marburg 2015
Schlagworte:
Online Zugang:PDF-Volltext
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!

Lebende Systeme sind überwältigend komplex und bestehen aus vielen interagierenden Teilen. Bereits die quantitative Charakterisierung eines einzelnen menschlichen Zelltyps auf genetischer Ebene bedarf mindestens der Messung von 20000 Genexpressionen. Es ist nach wie vor eine große Herausforderung für theoretische Ansätze, Muster in diesen Signalen zu entdecken, welche spezifische Interaktionen in solchen Systemen repräsentieren. Ein Hauptproblem besteht darin, dass verfügbare Standardmethoden die Genexpressionen in einer schwierig zu interpretierenden Weise zusammenfassen. Hauptkomponenten etwa repräsentieren Achsen maximaler Varianz im Genvektorraum und entsprechen daher häufig einer Überlagerung vieler verschiedener Genregulationseffekte (e.g. I.1.4). In dieser Arbeit wird ein neuartiger Ansatz zur Analyse und Interpretation derartig komplexer Daten entwickelt (Chapter II). Er basiert auf einem Extremalprinzip, welches eine Achse im Genvektorraum identifiziert, zu der so viele Proben wie möglich so hoch wie möglich korreliert sind (II.3). Diese Achse ist maximal spezifisch und entspricht daher typischerweise genau einem Genregulationseffekt, wodurch sie deutlich einfacher zu interpretieren ist als Hauptkomponenten. Zur Stabilisierung und zur Optimierung der Effekterkennung werden analog und gleichzeitig Achsen im Probenvektorraum identifiziert. Der Algorithmus behandelt generell Gene und Proben symmetrisch. Obwohl sie ausreichend zur Entdeckung von Effekten sind, können Effektachsen Regulationsgesetze nur linear annähern. Um eine breitere Klasse nichtlinearer Regulationen wie Sättigungseffekte oder Aktivitätsschwellen zu repräsentieren, wird ein bimonotonisches Effektmodell definiert (II.2.1.2). Die entsprechende Regression ist monotonisch über die Projektionen von Proben (bzw. Genen) auf entdeckte Genachsen (bzw. Probenachsen). Resultierende Effektkurven können Genregulationsgesetze präzise approximieren (II.4.1). Das ermöglicht die ausschließliche Abtrennung des entdeckten Effekts vom Signal (II.4.2). Signalbestandteile anderer (möglicherweise überlappender) Effekte bleiben unangetastet. Dies wird iterativ fortgesetzt. Auf diese Weise kann das hochdimensionale Ausgangssignal (II.2.1.1) in hochspezifische Einzeleffekte zerlegt werden. Die Methodenvalidierung zeigt, dass superponierte Effekte von vielfältiger Größe, Form und Signalstärke zuverlässig zerlegt werden können (II.6.2). Simulierte Regulationsgesetze werden dabei mit hoher Korrelation rekonstruiert. Erkennungsgrenzen bzgl. Signalstärke oder bzgl. der Rate fehlender Messwerte (II.6.4) liegen oberhalb praktischer Anforderungen. Der neuartige Ansatz wird mit Standardverfahren wie der Hauptkomponentenanalyse systematisch verglichen. Es wird gezeigt, dass die Signalzerlegung klare Vorteile hat, insbesondere bei vielen überlappenden Effekten mit vergleichbarer Größe (II.6.3). Ein ideales Testfeld für solche Ansätze sind Krebszellen, da sie von vielen überlappenden Genregulations-netzwerken gesteuert sein können, welche weitgehend unbekannt sind. Darüber hinaus ist die Quantifizierung und Klassifizierung von Krebszellen durch ihre spezifische Menge antreibender Genregulationen eine Voraussetzung in Richtung Präzisionsmedizin. Um die neuartige Methode gegen reale Daten zu validieren, wird sie auf Genexpressionen von über 1000 Tumorproben von Patienten mit diffus großzelligem B-Zell-Lymphom (DLBCL) angewendet. Zwei bereits bekannte Subtypen dieser Krankheit (cf. I.1.2.1) mit signifikant unterschiedlichem Überleben infolge derselben Chemotherapie wurden ursprünglich ebenfalls als Genexpressionseffekt entdeckt. Diese Subtypen können nur mit Hilfe dieses Effekts auf molekularem Level präzise bestimmt werden. Solche vorherigen Ergebnisse erlauben eine Methodenvalidierung, und in der Tat wurde dieser Effekt unüberwacht wiederentdeckt (III.3.2.2). Mehrere weitere biologisch relevante Ergebnisse wurden ermittelt und über vier Patientenkohorten validiert. Multivariate Analysen (III.2) identifizieren Kombinationen von validierten Effekten, die signifikante Unterschiede im Patientenüberleben vorhersagen können. Ein neuartiger Effekt besitzt sogar einen höheren Vorhersagewert (cf. III.2.5.1) als der wiederentdeckte Subtypeffekt und ist zudem genetisch spezifischer (cf. III.3.3.1). Ein angelerntes und validiertes Cox-Überlebensmodell (III.2.5) kann signifikante Überlebensunterschiede innerhalb bekannter DLBCL Subtypen (III.2.5.6) vorhersagen, was zeigt, dass diese ebenfalls genetisch heterogen sind. Detaillierte biostatistische Auswertungen für alle Überlebenseffekte (III.3.3) können dazu beitragen, die molekulare Pathogenese von DLBCL zu klären. Darüber hinaus ist die Anwendbarkeit der Signalzerlegung nicht auf biologische Daten begrenzt. In der Astrophysik könnte z.B. die Zerlegung spektraler Energieverteilungen von Sternen nützlich zur Entdeckung von Lichtemissionsgesetzen sein.