Publikationsserver der Universitätsbibliothek Marburg

Titel: Dissection of Complex Genetic Correlations into Interaction Effects
Autor: Grau, Michael
Weitere Beteiligte: Lenz, Peter (Prof. Dr.)
Erscheinungsjahr: 2016
URI: https://archiv.ub.uni-marburg.de/diss/z2016/0212
DOI: https://doi.org/10.17192/z2016.0212
URN: urn:nbn:de:hebis:04-z2016-02129
DDC: Physik
Titel(trans.): Zerlegung komplexer generischer Korrelationen in Interaktionseffekte

Dokument

Schlagwörter:
Genexpression, Tumorklassifikation, Hochdimensionale Daten, tumor classification, survival prediction, Maschinelles Lernen, Grenzen der Hauptkomponentenanalyse, signal dissection, Überlebensprädiktion, Komplexes System, interpretierbare hochdimensionale Interaktionsvorschriften, Nichtlineares Regressionsmodell, complex systems, Genanalyse, interpretable high-dimensional laws of interaction

Summary:
Living systems are overwhelmingly complex and consist of many interacting parts. Already the quantitative characterization of a single human cell type on genetic level requires at least the measurement of 20000 gene expressions. It remains a big challenge for theoretical approaches to discover patterns in these signals that represent specific interactions in such systems. A major problem is that available standard procedures summarize gene expressions in a hard-to-interpret way. For example, principal components represent axes of maximal variance in the gene vector space and thus often correspond to a superposition of multiple different gene regulation effects (e.g. I.1.4). Here, a novel approach to analyze and interpret such complex data is developed (Chapter II). It is based on an extremum principle that identifies an axis in the gene vector space to which as many as possible samples are correlated as highly as possible (II.3). This axis is maximally specific and thus most probably corresponds to exactly one gene regulation effect, making it considerably easier to interpret than principle components. To stabilize and optimize effect discovery, axes in the sample vector space are identified simultaneously. Genes and samples are always handled symmetrically by the algorithm. While sufficient for effect discovery, effect axes can only linearly approximate regulation laws. To represent a broader class of nonlinear regulations, including saturation effects or activity thresholds (e.g. II.1.1.2), a bimonotonic effect model is defined (II.2.1.2). A corresponding regression is realized that is monotonic over projections of samples (or genes) onto discovered gene (or sample) axes. Resulting effect curves can approximate regulation laws precisely (II.4.1). This enables the dissection of exclusively the discovered effect from the signal (II.4.2). Signal parts from other potentially overlapping effects remain untouched. This continues iteratively. In this way, the high-dimensional initial signal (II.2.1.1) can be dissected into highly specific effects. Method validation demonstrates that superposed effects of various size, shape and signal strength can be dissected reliably (II.6.2). Simulated laws of regulation are reconstructed with high correlation. Detection limits, e.g. for signal strength or for missing values, lie above practical requirements (II.6.4). The novel approach is systematically compared with standard procedures such as principal component analysis. Signal dissection is shown to have clear advantages, especially for many overlapping effects of comparable size (II.6.3). An ideal test field for such approaches is cancer cells, as they may be driven by multiple overlapping gene regulation networks that are largely unknown. Additionally, quantification and classification of cancer cells by their particular set of driving gene regulations is a prerequisite towards precision medicine. To validate the novel method against real biological data, it is applied to gene expressions of over 1000 tumor samples from Diffuse Large B-Cell Lymphoma (DLBCL) patients (Chapter III). Two already known subtypes of this disease (cf. I.1.2.1) with significantly different survival following the same chemotherapy were originally also discovered as a gene expression effect. These subtypes can only be precisely determined by this effect on molecular level. Such previous results offer a possibility for method validation and indeed, this effect has been unsupervisedly rediscovered (III.3.2.2). Several additional biologically relevant effects have been discovered and validated across four patient cohorts. Multivariate analyses (III.2) identify combinations of validated effects that can predict significant differences in patient survival. One novel effect possesses an even higher predictive value (cf. III.2.5.1) than the rediscovered subtype effect and is genetically more specific (cf. III.3.3.1). A trained and validated Cox survival model (III.2.5) can predict significant survival differences within known DLBCL subtypes (III.2.5.6), demonstrating that they are genetically heterogeneous as well. Detailed biostatistical evaluations of all survival effects (III.3.3) may help to clarify the molecular pathogenesis of DLBCL. Furthermore, the applicability of signal dissection is not limited to biological data. For instance, dissecting spectral energy distributions of stars observed in astrophysics might be useful to discover laws of light emission.

Zusammenfassung:
Lebende Systeme sind überwältigend komplex und bestehen aus vielen interagierenden Teilen. Bereits die quantitative Charakterisierung eines einzelnen menschlichen Zelltyps auf genetischer Ebene bedarf mindestens der Messung von 20000 Genexpressionen. Es ist nach wie vor eine große Herausforderung für theoretische Ansätze, Muster in diesen Signalen zu entdecken, welche spezifische Interaktionen in solchen Systemen repräsentieren. Ein Hauptproblem besteht darin, dass verfügbare Standardmethoden die Genexpressionen in einer schwierig zu interpretierenden Weise zusammenfassen. Hauptkomponenten etwa repräsentieren Achsen maximaler Varianz im Genvektorraum und entsprechen daher häufig einer Überlagerung vieler verschiedener Genregulationseffekte (e.g. I.1.4). In dieser Arbeit wird ein neuartiger Ansatz zur Analyse und Interpretation derartig komplexer Daten entwickelt (Chapter II). Er basiert auf einem Extremalprinzip, welches eine Achse im Genvektorraum identifiziert, zu der so viele Proben wie möglich so hoch wie möglich korreliert sind (II.3). Diese Achse ist maximal spezifisch und entspricht daher typischerweise genau einem Genregulationseffekt, wodurch sie deutlich einfacher zu interpretieren ist als Hauptkomponenten. Zur Stabilisierung und zur Optimierung der Effekterkennung werden analog und gleichzeitig Achsen im Probenvektorraum identifiziert. Der Algorithmus behandelt generell Gene und Proben symmetrisch. Obwohl sie ausreichend zur Entdeckung von Effekten sind, können Effektachsen Regulationsgesetze nur linear annähern. Um eine breitere Klasse nichtlinearer Regulationen wie Sättigungseffekte oder Aktivitätsschwellen zu repräsentieren, wird ein bimonotonisches Effektmodell definiert (II.2.1.2). Die entsprechende Regression ist monotonisch über die Projektionen von Proben (bzw. Genen) auf entdeckte Genachsen (bzw. Probenachsen). Resultierende Effektkurven können Genregulationsgesetze präzise approximieren (II.4.1). Das ermöglicht die ausschließliche Abtrennung des entdeckten Effekts vom Signal (II.4.2). Signalbestandteile anderer (möglicherweise überlappender) Effekte bleiben unangetastet. Dies wird iterativ fortgesetzt. Auf diese Weise kann das hochdimensionale Ausgangssignal (II.2.1.1) in hochspezifische Einzeleffekte zerlegt werden. Die Methodenvalidierung zeigt, dass superponierte Effekte von vielfältiger Größe, Form und Signalstärke zuverlässig zerlegt werden können (II.6.2). Simulierte Regulationsgesetze werden dabei mit hoher Korrelation rekonstruiert. Erkennungsgrenzen bzgl. Signalstärke oder bzgl. der Rate fehlender Messwerte (II.6.4) liegen oberhalb praktischer Anforderungen. Der neuartige Ansatz wird mit Standardverfahren wie der Hauptkomponentenanalyse systematisch verglichen. Es wird gezeigt, dass die Signalzerlegung klare Vorteile hat, insbesondere bei vielen überlappenden Effekten mit vergleichbarer Größe (II.6.3). Ein ideales Testfeld für solche Ansätze sind Krebszellen, da sie von vielen überlappenden Genregulations-netzwerken gesteuert sein können, welche weitgehend unbekannt sind. Darüber hinaus ist die Quantifizierung und Klassifizierung von Krebszellen durch ihre spezifische Menge antreibender Genregulationen eine Voraussetzung in Richtung Präzisionsmedizin. Um die neuartige Methode gegen reale Daten zu validieren, wird sie auf Genexpressionen von über 1000 Tumorproben von Patienten mit diffus großzelligem B-Zell-Lymphom (DLBCL) angewendet. Zwei bereits bekannte Subtypen dieser Krankheit (cf. I.1.2.1) mit signifikant unterschiedlichem Überleben infolge derselben Chemotherapie wurden ursprünglich ebenfalls als Genexpressionseffekt entdeckt. Diese Subtypen können nur mit Hilfe dieses Effekts auf molekularem Level präzise bestimmt werden. Solche vorherigen Ergebnisse erlauben eine Methodenvalidierung, und in der Tat wurde dieser Effekt unüberwacht wiederentdeckt (III.3.2.2). Mehrere weitere biologisch relevante Ergebnisse wurden ermittelt und über vier Patientenkohorten validiert. Multivariate Analysen (III.2) identifizieren Kombinationen von validierten Effekten, die signifikante Unterschiede im Patientenüberleben vorhersagen können. Ein neuartiger Effekt besitzt sogar einen höheren Vorhersagewert (cf. III.2.5.1) als der wiederentdeckte Subtypeffekt und ist zudem genetisch spezifischer (cf. III.3.3.1). Ein angelerntes und validiertes Cox-Überlebensmodell (III.2.5) kann signifikante Überlebensunterschiede innerhalb bekannter DLBCL Subtypen (III.2.5.6) vorhersagen, was zeigt, dass diese ebenfalls genetisch heterogen sind. Detaillierte biostatistische Auswertungen für alle Überlebenseffekte (III.3.3) können dazu beitragen, die molekulare Pathogenese von DLBCL zu klären. Darüber hinaus ist die Anwendbarkeit der Signalzerlegung nicht auf biologische Daten begrenzt. In der Astrophysik könnte z.B. die Zerlegung spektraler Energieverteilungen von Sternen nützlich zur Entdeckung von Lichtemissionsgesetzen sein.


* Das Dokument ist im Internet frei zugänglich - Hinweise zu den Nutzungsrechten