Scientific Workflows for Metabolic Flux Analysis
Metabolic engineering is a highly interdisciplinary research domain that interfaces biology, mathematics, computer science, and engineering. Metabolic flux analysis with carbon tracer experiments (13 C-MFA) is a particularly challenging metabolic engineering application that consists of several tigh...
Main Author: | |
---|---|
Contributors: | |
Format: | Doctoral Thesis |
Language: | English |
Published: |
Philipps-Universität Marburg
2017
|
Subjects: | |
Online Access: | PDF Full Text |
Tags: |
Add Tag
No Tags, Be the first to tag this record!
|
Metabolic Engineering ist eine hochgradig interdisziplinäre Wissenschaftsdomäne, welche Biologie, Mathematik, Informatik und Ingenieurswissenschaften miteinander verknüpft. Metabolische Stoffflussanalyse mit 13 C markierten Isotopen (13 C-SFA) ist eine besonders herausfordernde Metabolic Engineering Anwendung, die aus vielen miteinander eng verwobenen Bausteinen besteht, wie etwa Modellierung, Simulation und Versuchsplanung. Obwohl eine Vielzahl universeller Workflow Lösungen zur Realisierung komplexer wissenschaftlicher Anwendungen in den vergangenen Jahren entwickelt wurden, ist die Übertragung dieser Ansätze auf 13C-SFA Workflows nur teilweise möglich. Während Probleme in anderen Wissenschaftszweigen (wie etwa der Bioinformatik) vornehmlich mit Datenprozessierung zu tun haben, sind 13C-SFA Workflows eher mit Business Workflows vergleichbar. Beispielsweise sind viele Bioinformatik Workflows derart gestaltet, dass Genomsequenzen mittels "pipelining" durch Standardwerkzeuge wie BLAST identifiziert, verglichen und annotiert werden. Typischerweise kann der nächste Workflow Schritt in der "pipeline" automatisch durch das Ergebnis des vorangegangenen Schrittes ermittelt werden. Fünf rechenbetonte Herausforderungen wurden im Bemühen um 13C-SFA Studien durchzuführen identifiziert: Organisation heterogener Daten, Standardisierung von Prozessen sowie die Vereinheitlichung von Werkzeugen und Daten, interaktive Workflow Steuerung, verteiltes Rechnen und Service Orientierung. Das Ergebnis dieser Dissertation ist ein Scientific Workflow Framework (SWF), das auf die spezifischen Anforderungen von 13C-SFA Anwendungen zugeschnitten ist. Der hier präsentierte Ansatz – nämlich das SWF als eine Sammlung von miteinander lose gekoppelten Modulen zu gestalten, die mittels Web Services miteinander interagieren – erleichtert mit einigen Besonderheiten die Umsetzung von 13C-SFA Workflows. Bestehende Werkzeuge sind in das SWF durch Web Service Schnittstellen sowie Programmiersprachenanbindungen angebunden (z.B. an Java oder Python). Obwohl die Attribute "einfache Handhabung" und "Universalität" nur selten in Zusammenhang mit verteiltem Rechnen gebracht wird, zeigen die vorgestellten Anwendungsfälle, dass der Einsatz des vorgeschlagenen Hadoop MapReduce Frameworks die Umsetzung von rechenintensiven Simulationen auf Cloud und Cluster Computing Ressourcen vereinfacht. Ein wichtiger Baustein um interaktive, Wissenschaftler-affine Workflows zu ermöglichen ist die Fähigkeit, alle Daten zu beobachten, die notwendig sind um einen Workflow zu verstehen und zu reproduzieren. Die Standardisierung von 13 C-SFA Studien mittels einer Vorlage für eine Ordnerstruktur und den dazugehörigen Web Services und Schnittstellen verbessert den Austausch von Informationen mit anderen Wissenschaftlern. Schließlich wurden im Rahmen dieser Arbeit eine Vielzahl von Zusatzprogrammen entwickelt, welche die eigentlichen SWF Module komplementieren. Diese reichen von einfachen Hilfsskripten bis hin zu Visualisierungs- und Datenkonvertierungsprogrammen. Die in dieser Arbeit vorgestellte Lösung unterscheidet sich von anderen Scientific Workflow Ansätzen durch ein System von lose gekoppelten Komponenten, die flexibel angeordnet sind, um den typischen Anforderungen in der Metabolic Engineering Domäne gerecht zu werden. Die moderne Softwarearchitektur und Service-orientierung des SWF erleichtern die Entwicklung neuer Anwendungen durch das Zusammenstellen und die Wiederverwendung bereits existierender Komponenten.