Strategies for Genome-Wide Association Analyses of Raw Copy Number Variation Data

Copy number variations (CNVs), as one type of genetic variation in which a large sequence of nucleotides is repeated in tandem multiple times to a variable extent among different individuals of one population, have gained much attention with regard to human phenotypic diversity. Recent efforts to ma...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
1. Verfasser: Jarick, Ivonne
Beteiligte: Schäfer, Helmut (Prof. Dr.) (BetreuerIn (Doktorarbeit))
Format: Dissertation
Sprache:Englisch
Veröffentlicht: Philipps-Universität Marburg 2013
Schlagworte:
Online Zugang:PDF-Volltext
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!

CNVs, als eine Art von genetischer Variation, bei der eine große Sequenz von Nukleotiden im Tandem wiederholt ist mit einem variablen Umfang zwischen verschiedenen Individuen einer Population, haben viel Aufmerksamkeit hinsichtlich menschlicher phänotypischer Vielfalt gewonnen. Jüngste Bemühungen die menschliche strukturelle Variation abzubilden haben gezeigt, dass CNVs im Vergleich zu SNPs einen signifikant größeren Anteil des menschlichen Genoms beeinflussen. Dies führte zu der Idee, dass CNVs eine wichtige Rolle spielen könnten in der Aufklärung eines Teils der phänotypischen Varianz in einer Population, die auf genetischen Faktoren beruht und die bisher zum Großteil durch häufige SNPs noch nicht erklärt werden konnte. Aktuelle Daten von SNP-Arrays erwiesen sich nicht nur als nützlich für die Genotypisierung von SNPs, sondern auch zum Nachweis von CNVs. Allerdings kann, aufgrund der meist noch unzureichenden Genauigkeit des CNV Nachweises und der Seltenheit der bereitgestellten Methoden zum Testen von Assoziationen, das Planen der genauen Gestaltung einer genomweiten CNV Assoziations-Studie eine Herausforderung sein. Diese Dissertation untersucht vier Strategien für genomweite Assoziations - Auswertungen von CNV Rohdaten, welche von dem Affymetrix 6.0 Array gewonnen wurden. Zunächst werden die beiden am häufigsten verwendeten strategischen Ansätze vorgestellt und auf reale Daten Beispiele für die Phänotypen frühmanifeste extreme Adipositas und kindliche ADHS angewendet. Auf der einen Seite werden Intensitäts-Rohdaten, welche die individuelle Kopienzahl widerspiegeln, direkt auf eine Assoziation mit dem Krankheits-Risiko getestet, ohne die Bereitstellung oder die Nutzung von Informationen über CNV Genotypen. Auf der anderen Seite werden genomweite CNV Analysen als Zwei-Schritt-Verfahren durchgeführt, in denen zunächst individuelle CNV Genotypen erkannt und anschließend auf CNV - Phänotyp Assoziationen getestet werden. Zum Zweiten werden zwei Erweiterungen der Standard-Strategien eingeführt, die beide eigenständige Strategien darstellen, welche sich besonders auf die Absicht fokussieren Schwächen der jeweiligen weit verbreiteten Strategie zu überwinden. In diesem Sinne befasst sich eine der vorgeschlagenen Strategien damit, dass Tausende der auf dem Array bereitgestellten CNV Marker in genomischen Regionen ohne zugrunde liegende Kopienzahl Variabilität lokalisiert sind, und empfiehlt deshalb nur eine vorab ausgewählte Menge von relevanten und informativen Intensitäts-Werten auf Assoziationen zu testen, wodurch das Problem des multiplen Testens aufgelockert wird. Des Weiteren adressiert die zweite vorgeschlagene Strategie die bekannte Ungenauigkeit in der CNV Bestimmung für insbesondere Regionen mit häufigen CNVs, welche oft zu einem gewissen Grad verursacht wird durch die Schätzung von CNV Genotypen unter Berücksichtigung von Gruppen-Mittelwert oder Gruppen-Median der Hybridisierungs-Intensitäts-Werte. Stattdessen wird die Verwendung von Intensitäts-Referenz-Werten, welche im Rahmen eines Gaußschen Mischverteilungsmodell geschätzt werden, untersucht im Hinblick auf Anwendungen an Beispieldaten von HapMap- und Replikat-Probanden sowie auch auf den zuvor bereits analysierten Adipositas Datensatz. Dieser Adipositas Datensatz wurde mittels aller vier Strategien zur genomweiten CNV Auswertung analysiert, wodurch ein Vergleich aller Strategien hinsichtlich ihrer Anwendbarkeit und Leistungsfähigkeit ermöglicht wurde. Für die vier Strategien wurde ein stark unterschiedlich ausgeprägter Rechenaufwand und stark variierende genetische Ergebnissen beobachtet. Während eine der beiden Standard-Strategien seltene CNVs im PARK2 Gen als genomweit signifikant assoziiert mit ADHS bei Kindern identifizieren konnte, entdeckte keine dieser beiden Strategien auch nur eine CNV - Adipositas Assoziation. Im Gegensatz dazu konnte für alternative Referenz-Intensitäts-Werte eine verbesserte Verlässlichkeit der geschätzten CNVs im Vergleich zur Standard Detektion in Bezug auf Stabilitäts-, Reproduzierbarkeits- und Falsch-Positiv-Raten gezeigt werden. Als Konsequenz daraus wurde in Anwendung der vorgeschlagenen Analyse-Strategien ein häufiger CNV auf Chromosom 11q11 erstmals als mutmaßlich kausale Variante für frühmanifeste extreme Adipositas identifiziert. Darüber hinaus wurde auch eine häufige Deletion auf Chromosom 10q11.22, für die zuvor bereits eine Assoziation mit dem BMI berichtet wurde, unter Verwendung einer der beiden vorgeschlagenen Strategien repliziert. Die Resultate deuten an, dass die Strategie-Wahl zur genomweiten CNV Assoziations - Auswertung die genetischen Ergebnisse stark beeinflusst. Die hier vorgestellten Untersuchungen der Strategien geben einen Überblick über Aspekte, die bei der Planung einer genomweiten CNV Analyse-Pipeline zu berücksichtigen sind, sie lassen allerdings keine allgemeinen Empfehlungen bezüglich eines optimalen Designs zu.