Cross-Layer Cloud Performance Monitoring, Analysis and Recovery

The basic idea of Cloud computing is to offer software and hardware resources as services. These services are provided at different layers: Software (Software as a Service: SaaS), Platform (Platform as a Service: PaaS) and Infrastructure (Infrastructure as a Service: IaaS). In such a complex e...

Full description

Saved in:
Bibliographic Details
Main Author: Mdhaffar, Afef
Contributors: Freisleben, Bernd (Prof. Dr.) (Thesis advisor)
Format: Dissertation
Language:English
Published: Philipps-Universität Marburg 2014
Mathematik und Informatik
Subjects:
Online Access:PDF Full Text
Tags: Add Tag
No Tags, Be the first to tag this record!
Table of Contents: Die Grundidee des Cloud Computing ist es, Software und Hardware-Ressourcen als Dienste anzubieten. Diese Dienste werden in verschiedenen Schichten bereitgestellt, als Software (Software as Service: SaaS), Plattform (Platform as a Service: PaaS) und als Infrastruktur (Infrastructure as a Service: IaaS). In diesem komplexen Umfeld stellt eine gute Koordination eine besondere Herausforderung dar, insbesondere, weil Leistungseinbußen oft in jeder Schicht zu verzeichnen sind. Daher ist es notwendig, Leistungsparameter aller Schichten des Cloud-Systems zu überwachen, um mögliche Probleme frühzeitig zu erkennen, zu analysieren und zu beheben. Diese Arbeit stellt einen neuen, Schichten übergreifenden Ansatz zur Überwachung und Steuerung von Cloud-Computing-Umgebungen vor. Dieser basiert auf dem sogenannten Complex Event Processing (CEP), also der Verarbeitung komplexer Ereignisse. Der vorgeschlagene Ansatz wird als CEP4Cloud bezeichnet. Er analysiert die überwachten Ereignisse, um leistungsbezogene Probleme zu erkennen und leitet auch Maßnahmen zu ihrer Behebung ein. Der Vorschlag basiert auf der Verwendung eines (1) neuartigen Mehrschichtenüberwachungskonzepts, (2) einer speziellen Schichten übergreifenden Analyse und (3) einem neuen Reparaturverfahren. Der vorgeschlagene Überwachungsentwurf berücksichtigt alle Schichten des Cloud-Systems bei der Erhebung der notwendigen Parameter. Er nutzt bereits vorhandene Überwachungswerkzeuge zusammen mit einem neuen Überwachungskonzept für Dienste in der SaaS-Schicht. Dieser Ansatz wird als AOP4CSM bezeichnet. Mittels aspektorientierter Programmierung werden Qualitätsparameter transparent aus der SaaS-Schicht ermittelt. Dabei ändert AOP4CSM weder die server-seitige Implementation noch die Software des Klienten. Der erarbeitete Schichten übergreifende Analyseansatz basiert auf der CEP-Methodik und wird als D-CEP4CMA bezeichnet. Anstatt einer aufwändigen manuellen Spezifikation von Abfragen an die kontinuierlich überwachten Ereignis-ströme werden CEP-Abfragen hierbei automatisch aus Korrelationen zwischen den erfassten Metriken der verschiedenen Cloud-Schichten abgeleitet. Die Korrelationsanalyse erlaubt eine Reduktion der Anzahl überwachter Parameter und mit ihnen auch eine effektive Identifikation der Ursachen leistungsbezogener Probleme. Die abgeleiteten Analyseregeln werden als Abfragen in einem CEP-Modul realisiert. D-CEP4CMA wurde so entworfen, dass abhängig von der Netzwerklast und den Speicherresourcen des CEP-Rechners dynamisch zwischen verschiedenen zentralen und verteilten CEP-Architekturen in der Cloud umgeschaltet werden kann. Der vorgeschlagene Wiederherstellungs-Ansatz basiert auf einem neuartigen Verfahren für die Verwaltung von Reparatur-Aktivitäten in den drei Cloud-Schichten. Ein spezieller Aktionsmanager bringt, je nach der Art des identifizierten Problems, verschiedene Reparaturmaßahmen zur Anwendung und überprüft auch deren Erfolg. Die durchgeführten Experimente veranschaulichen die Vorteile der vorgeschlagenen reaktiven Cloud-Monitoring und -Steuerungslösung in den Bereichen Monitoring, Analyse und Reparatur. Einerseits zeigen die Experimente eine hohe Effizienz von AOP4CSM im Hinblick auf geringe zusätzliche Laufzeiten und Speicherplatzbedarf. Zugleich werden im Vergleich zu einfachen schwellwertbasierten Methoden gute Ergebnisse bei der Identifikation von leistungsbezogenen Problemen erzielt (im Sinne der statistischen Größen precision und recall). Dasselbe gilt auch im Hinblick auf das gute Abschneiden von D-CEP4CMA im Vergleich zu zentralisierten und verteilten CEP-Architekturen. Die experimentellen Ergebnisse zeigen auch, dass mit der vorgeschlagenen Methode nur relativ wenig Zeit benötigt wird, um leistungsbezogene Problem zu beheben. Die erzeugte CPU-Last durch Verwendung von CEP4Cloud ist dabei vernachlässigbar. Im Vergleich zu anderen Methoden liefert CEP4Cloud also schnellere Reparaturmaßnahmen bei einer geringeren Anzahl ausgelöster Fehlalarme.