Comprehensive analysis of methylation data in non-model plant species
Can, Sultan Nilay
One of the goals of plant epigenetics is detecting differential methylation that may occur following specific treatments or in variable environments. This can be achieved with a single-base resolution with standard methods for whole-genome bisulfite sequencing (WGBS) and reduced representation bisulfite sequencing (RRBS). Another important goal is to exploit sequencing methods in combination with bisulfite treatment to associate genetics and epigenetics with phenotypic traits. In the past 19 years, this has become possible using so-called genome-wide association studies (GWAS) and epigenome-wide association studies (EWAS), the latter of which aims to reveal the potential biomarkers between phenotypic traits and epigenetic variation. In practice, such studies rely on software packages or “bioinformatics pipelines” which make the requisite computational processes routine and reliable. This thesis describes several such pipelines, developed within the framework of EpiDiverse, an Innovative Training Network (ITN) (https://epidiverse.eu/, accessed on 1 May 2021) carrying out comprehensive studies on pipelines for WGBS, differentially methylated region (DMR), EWAS, and single nucleotide polymorphism (SNP) analyses. Here I introduce the benchmark study with DMR tools, the EWAS pipeline, and bioinformatics pipelines implemented within the EpiDiverse toolkit. At first, by analyzing DMR tools with simulated datasets with seven different tools (metilene, methylKit, MOABS, DMRcate, Defiant, BSmooth, MethylSig) and four plant species (Aethionema arabicum, Arabidopsis thaliana, Picea abies, and Physcomitrium patens), together with the coauthors, we showed that metilene has a superior performance in terms of overall precision and recall. Therefore, we set it as a default DMR caller in the EpiDiverse DMR pipeline. Afterward, I introduced extended features of the EWAS pipeline beyond the GEM R package e.g., graphical outputs, novel missing data imputation, compatibility with new input types, etc. Then I revealed the effect of missing data with the Picea abies (Norway spruce) data and showed the pipeline presents logical missing data imputation. Furthermore, I obtained a significant overlap between the pipeline and Quercus lobata (valley oak) analysis results. By extensive benchmark with various tools, a group of pipelines became publicly available, whereby the EpiDiverse toolkit suits for people working with WGBS datasets (https://github.com/EpiDiverse, accessed on 1 May 2021).
Philipps-Universität Marburg
Life sciences
urn:nbn:de:hebis:04-z2021-04814
opus:10122
https://doi.org/10.17192/z2021.0481
DNA methylation
2021-07-13
Epigenetik
urn:nbn:de:hebis:04-z2021-04814
Nicht-Modellarten
plant epigenetics
ths
Prof. Dr.
Rensing
Stefan A.
Rensing, Stefan A. (Prof. Dr.)
DNA-Methylierung
2021
Eines der Ziele der Pflanzen-Epigenetik ist der Nachweis differentieller Methylierung, die nach bestimmten Behandlungen oder in variablen Umgebungen auftreten kann. Dies kann mit einer Einzelbasenauflösung mit Standardmethoden für die Ganzgenom-BisulfitSequenzierung (WGBS) und die Bisulfit-Sequenzierung mit reduzierter Repräsentation (RRBS) erreicht werden. Ein weiteres wichtiges Ziel ist es, Sequenziermethoden in Kombination mit Bisulfit-Behandlung anzuwenden, um Genetik und Epigenetik mit phänotypischen Merkmalen in Verbindung zu bringen. In den letzten 19 Jahren ist dies durch sogenannte genomweite Assoziationsstudien (GWAS) und epigenomweite Assoziationsstudien (EWAS) möglich geworden, wobei Letztere darauf abzielen, die potenziellen Biomarker zwischen phänotypischen Merkmalen und epigenetischer Variation aufzudecken. In der Praxis sind derartige Studien auf Softwarepakete oder "Bioinformatik-Pipelines" angewiesen, die die erforderlichen Rechenprozesse routinemäßig und zuverlässig durchführen. Diese Arbeit beschreibt mehrere solcher Pipelines, die im Rahmen von EpiDiverse, einem Innovative Training Network (ITN) (https://epidiverse.eu/, Zugriff am 1.2.2021), entwickelt wurden, das umfassende Untersuchungen zu Pipelines für WGBS, differenziell methylierte Regionen (DMR), EWAS und Einzelnukleotid-Polymorphismus (SNP)-Analysen ermöglicht. Hier stelle ich die Benchmark-Untersuchungmit DMR-Tools, die EWAS-Pipeline und Bioinformatik-Pipelines vor, die im EpiDiverse-Toolkit implementiert sind. Zunächst habe ich gemeinsam mit den Co-Autoren durch die Analyse von DMR-Tools mit simulierten Datensätzen mit sieben verschiedenen Tools (metilene, methylKit, MOABS, DMRcate, Defiant, BSmooth, MethylSig) und vier Pflanzenarten (Aethionema arabicum, Arabidopsis thaliana, Picea abies und Physcomitrium patens) gezeigt, dass metilene eine überlegene Performanz in Bezug auf die Gesamtgenauigkeit und den Recall aufweist. Aus diesem Grund haben wir beschlossen, dieses Tool als Standard-DMR-Caller in der EpiDiverse-DMR-Pipeline einzusetzen. Anschließend führte ich erweiterte Funktionen der EWAS-Pipeline über das GEM R-Paket hinaus ein, wie z.B. grafische Ausgaben, neuartige Imputation fehlender Daten, Kompatibilität mit neuen Eingabetypen usw. Dann deckte ich den Effekt fehlender Daten mit dem Datensatz von Picea abies (Fichte) auf und konnte zeigen, dass die Pipeline eine logische Imputation von fehlenden Daten aufweist. Des Weiteren ergab sich eine signifikante Überlappung zwischen den Analyseergebnissen der Pipeline und der Quercus lobata (Tal-Eiche). Durch umfangreichen Benchmark mit verschiedenen Tools wurde eine Gruppe von Pipelines veröffentlicht, wobei sich das EpiDiverse-Toolkit für die Arbeit mit WGBSDatensätzen eignet (https://github.com/EpiDiverse, Zugriff am 1.2.2021).
Fachbereich Biologie
non-model species
2021-08-19
Can, Sultan Nilay
Can
Sultan Nilay
One of the goals of plant epigenetics is detecting differential methylation that may occur following specific treatments or in variable environments. This can be achieved with a single-base resolution with standard methods for whole-genome bisulfite sequencing (WGBS) and reduced representation bisulfite sequencing (RRBS). Another important goal is to exploit sequencing methods in combination with bisulfite treatment to associate genetics and epigenetics with phenotypic traits. In the past 19 years, this has become possible using so-called genome-wide association studies (GWAS) and epigenome-wide association studies (EWAS), the latter of which aims to reveal the potential biomarkers between phenotypic traits and epigenetic variation. In practice, such studies rely on software packages or “bioinformatics pipelines” which make the requisite computational processes routine and reliable. This thesis describes several such pipelines, developed within the framework of EpiDiverse, an Innovative Training Network (ITN) (https://epidiverse.eu/, accessed on 1 May 2021) carrying out comprehensive studies on pipelines for WGBS, differentially methylated region (DMR), EWAS, and single nucleotide polymorphism (SNP) analyses. Here I introduce the benchmark study with DMR tools, the EWAS pipeline, and bioinformatics pipelines implemented within the EpiDiverse toolkit. At first, by analyzing DMR tools with simulated datasets with seven different tools (metilene, methylKit, MOABS, DMRcate, Defiant, BSmooth, MethylSig) and four plant species (Aethionema arabicum, Arabidopsis thaliana, Picea abies, and Physcomitrium patens), together with the coauthors, we showed that metilene has a superior performance in terms of overall precision and recall. Therefore, we set it as a default DMR caller in the EpiDiverse DMR pipeline. Afterward, I introduced extended features of the EWAS pipeline beyond the GEM R package e.g., graphical outputs, novel missing data imputation, compatibility with new input types, etc. Then I revealed the effect of missing data with the Picea abies (Norway spruce) data and showed the pipeline presents logical missing data imputation. Furthermore, I obtained a significant overlap between the pipeline and Quercus lobata (valley oak) analysis results. By extensive benchmark with various tools, a group of pipelines became publicly available, whereby the EpiDiverse toolkit suits for people working with WGBS datasets (https://github.com/EpiDiverse, accessed on 1 May 2021).
2021-08-19
Philipps-Universität Marburg
doctoralThesis
monograph
Umfassende Analyse von Methylierungs Daten bei nicht-modellhaften Pflanzenarten
Biologie
opus:10122
121
application/pdf
GWAS
Comprehensive analysis of methylation data in non-model plant species
Pflanzen Epigenetik
pipeline
https://doi.org/10.17192/z2021.0481
Pipeline
Publikationsserver der Universitätsbibliothek Marburg
Universitätsbibliothek Marburg
https://archiv.ub.uni-marburg.de/diss/z2021/0481/cover.png
EWAS
Life sciences
Biowissenschaften, Biologie
English
PRESERVATION_MASTER
VIEW
Image
PRESERVATION_MASTER