Identifying genome-wide transcription units from histone modifications using EPIGENE

With the successful completion of the human genome project and the rapid development of sequencing technologies, transcriptome annotation across multiple human cell types and tissues is now available. Accurate transcriptome annotation is critical for understanding the functional as well as the regul...

Full description

Saved in:
Bibliographic Details
Main Author: Sahu, Anshupa
Contributors: Chung, Ho-Ryun (Prof. Dr.) (Thesis advisor)
Format: Doctoral Thesis
Language:English
Published: Philipps-Universität Marburg 2021
Subjects:
Online Access:PDF Full Text
Tags: Add Tag
No Tags, Be the first to tag this record!

Mit dem erfolgreichen Abschluss des Humangenomprojekts und der raschen Entwicklung von Sequenzierungstechnologien ist nun die Annotation von Transkriptomen über mehrere menschliche Zelltypen und Gewebe hinweg verfügbar. Eine genaue Annotation des Transkriptoms ist entscheidend für das Verständnis der funktionellen und regulatorischen Rolle genomischer Regionen. Aktuelle Methoden zur Identifizierung genomweiter aktiver Transkriptionseinheiten (TUs) verwenden die RNA-Sequenzierung (RNA-seq). Dieser Ansatz erfordert jedoch große Mengen an mRNA, was die Identifizierung von hochinstabilen regulatorischen RNAs (wie microRNA-Vorläufern) schwierig macht. Aufgrund dieser Komplexität bei der Identifizierung von inhärent instabilen TUs bleibt die Transkriptomlandschaft über alle Zellen und Gewebe hinweg unvollständig. Dieses Problem kann durch Chromatin-basierte Ansätze aufgrund einer gut etablierten Korrelation zwischen Transkription und Histonmodifikation reduziert werden. Hier präsentiere ich EPIGENE, eine neuartige Chromatinsegmentierungsmethode zur Identifizierung genomweiter aktiver TUs unter Verwendung transkriptionsassoziierter Histonmodifikationen. Im Gegensatz zu bestehenden Ansätzen zur Chromatinsegmentierung verwendet EPIGENE ein eingeschränktes, halbüberwachtes multivariates Hidden Markov-Modell (HMM), das die beobachtete Kombination von Histonmodifikationen unter Verwendung eines Produkts unabhängiger Bernoulli-Zufallsvariablen modelliert, um die einer aktiven TU zugrunde liegende Chromatin-Zustandssequenz zu identifizieren. Mit EPIGENE konnte ich erfolgreich genomweite TUs über mehrere menschliche Zelllinien hinweg vorhersagen. Von EPIGENE vorhergesagte TUs wurden an der Transkriptionsstartstelle (TSS) und im Genkörper auf RNA-Polymerase II (Pol II) angereichert, was darauf hinweist, dass sie tatsächlich transkribiert sind. Eine umfassende Validierung unter Verwendung vorhandener Annotationen ergab, dass 93% der EPIGENE-TUs durch vorhandene Genannotationen und 5% der EPIGENE-TUs in HepG2 durch microRNA-Annotationen erklärt werden können. EPIGENE prognostizierte TUs genauer im Vergleich zu bestehenden Ansätzen zur Chromatinsegmentierung und RNA-Sequenz über mehrere menschliche Zelllinien hinweg. Unter Verwendung von EPIGENE identifizierte ich auch 232 neue TUs in K562 und 43 neue zellspezifische TUs in K562, HepG2 und IMR90, die alle durch Pol II ChIP-seq- und entstehende RNA-seq-Beweise gestützt wurden.