Basiskomponenten von XML Datenbanksystemen

Für die Entwicklung von vielen kleinen und großen Softwaresystemen reichen herkömmliche (objekt-)relationale Datenbanksysteme nicht mehr aus. Viele interessante Daten sind in der Praxis nicht voll strukturiert und somit nicht effektiv mit einem Standarddatenbanksystem zu verwalten. Es werden deshalb...

Ausführliche Beschreibung

Gespeichert in:
1. Verfasser: Schneider, Martin
Beteiligte: Seeger, Bernhard (Prof.) (BetreuerIn (Doktorarbeit))
Format: Dissertation
Sprache:Deutsch
Veröffentlicht: Philipps-Universität Marburg 2004
Datenbanksysteme
Schlagworte:
XML
Online Zugang:PDF-Volltext
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
format Dissertation
oai_set_str_mv doc-type:doctoralThesis
ddc:004
xMetaDissPlus
topic Semi-structured
Informatik
Semi-strukturiert
XML-Schema
Softwarebibliothek
Software library
JAXP
XPath 2.0
Objektrelationales Datenbanksystem
Relationales Datenbanksystem
Nonstandard-Datenbanksyste
XML
spellingShingle Semi-structured
Informatik
Semi-strukturiert
XML-Schema
Softwarebibliothek
Software library
JAXP
XPath 2.0
Objektrelationales Datenbanksystem
Relationales Datenbanksystem
Nonstandard-Datenbanksyste
XML
The development of many small and big software systems is not conceivable without state-of-the-art (object-) relational database management systems. But nowadays, a lot of interesting data is not completely structured and cannot efficiently be managed by existing systems. As a matter of fact, new standardized systems for unstructured and semi-structured data are strongly needed. The existing gap recently became narrowed by the introduction of native XML database systems. Such systems are based on the standardized data format XML of the World Wide Web consortium (W3C). Native XML database systems support a lot of open standards like XSchema for grammars, XPath and XQuery as query languages, XSLT for transformations and DOM and SAX for connecting to applications. This dissertation is concerned with the foundations of native XML database systems. Structures from literature are optimized and new structures are proposed. It is set a high value on a solid test-bed for the algorithms. Therefore, a framework has been developed which is publicly available in the Java-library XXL. The XXL library provides a lot of high level components for a comfortable implementation of database systems. The most important components are a generic query processor and advanced index structures. During this work, a lot of new components have been implemented and integrated into XXL, for example a component for low level disk access, a freely configurable record manager, and a relational database framework. The central concern of this work is the optimization of the storage level of native XML database systems. Therefore, it is important to keep the tree structure while mapping XML documents to external memory. By this means, query processing needs fewer hard disk accesses, which is most important for the performance of the database. Similar to R-trees, XML storage structures are based on split algorithms, which follow certain heuristics. The proposed so called OneCutSplit with Scaffold algorithm showed to be clearly superior to the well-known algorithms from literature. For the fast insertion of documents into a native XML database, a bulk loading mechanism has been implemented. It could be shown that the structure of bulk loaded documents is much better than the structure of documents which were constructed by split algorithms. A better structure leads to a noticeable reduction of response times of queries. The technology of XML database systems is still in its infancy and so, a lot of improvements can be achieved. For speeding up query processing, index structures are indispensable. For this purpose, a new signature index based on aggregates has been developed and also integrated into the XML storage engine. Tests have shown that this technique yields to a large benefit when evaluating XPath queries. Through the development of the database framework inside XXL, tests comparing the performance of native XML storage with relational XML storage became possible. Currently, no other single system can perform similar fair runtime tests. It could be shown that native XML storage even has a good performance for simple XPath queries. When regarding navigational and update queries, the XML storage engine shows superior performance compared to relational engines. Query processing on XML data is not only restricted to XPath and XQuery. For the management of large amounts of XML documents, new operators are necessary, which perform mappings from XML documents to new XML documents. This is analogous to the relational algebra, where the base type of the operators is tuple . Compared to the relational model, the reduction to a small set of operators is not possible in the context of XML. In this thesis, a lot of new operators are presented, that are not specific for query processing inside XML database systems. They can also be used for querying the internet. Through the developed framework, it is possible to pose self-defined queries over internet sources in an easy manner.
Basiskomponenten von XML Datenbanksystemen
Schneider, Martin
dewey-raw 004
dewey-search 004
genre Data processing, Computer science
genre_facet Data processing, Computer science
topic_facet Informatik
url http://archiv.ub.uni-marburg.de/diss/z2005/0323/pdf/dms.pdf
title_alt Generic Building Blocks for XML Database Systems
author2 Seeger, Bernhard (Prof.)
author2_role ths
publisher Philipps-Universität Marburg
building Fachbereich Mathematik und Informatik
publishDate 2004
era_facet 2004
last_indexed 2011-08-10T23:59:59Z
first_indexed 2005-06-08T00:00:00Z
contents The development of many small and big software systems is not conceivable without state-of-the-art (object-) relational database management systems. But nowadays, a lot of interesting data is not completely structured and cannot efficiently be managed by existing systems. As a matter of fact, new standardized systems for unstructured and semi-structured data are strongly needed. The existing gap recently became narrowed by the introduction of native XML database systems. Such systems are based on the standardized data format XML of the World Wide Web consortium (W3C). Native XML database systems support a lot of open standards like XSchema for grammars, XPath and XQuery as query languages, XSLT for transformations and DOM and SAX for connecting to applications. This dissertation is concerned with the foundations of native XML database systems. Structures from literature are optimized and new structures are proposed. It is set a high value on a solid test-bed for the algorithms. Therefore, a framework has been developed which is publicly available in the Java-library XXL. The XXL library provides a lot of high level components for a comfortable implementation of database systems. The most important components are a generic query processor and advanced index structures. During this work, a lot of new components have been implemented and integrated into XXL, for example a component for low level disk access, a freely configurable record manager, and a relational database framework. The central concern of this work is the optimization of the storage level of native XML database systems. Therefore, it is important to keep the tree structure while mapping XML documents to external memory. By this means, query processing needs fewer hard disk accesses, which is most important for the performance of the database. Similar to R-trees, XML storage structures are based on split algorithms, which follow certain heuristics. The proposed so called OneCutSplit with Scaffold algorithm showed to be clearly superior to the well-known algorithms from literature. For the fast insertion of documents into a native XML database, a bulk loading mechanism has been implemented. It could be shown that the structure of bulk loaded documents is much better than the structure of documents which were constructed by split algorithms. A better structure leads to a noticeable reduction of response times of queries. The technology of XML database systems is still in its infancy and so, a lot of improvements can be achieved. For speeding up query processing, index structures are indispensable. For this purpose, a new signature index based on aggregates has been developed and also integrated into the XML storage engine. Tests have shown that this technique yields to a large benefit when evaluating XPath queries. Through the development of the database framework inside XXL, tests comparing the performance of native XML storage with relational XML storage became possible. Currently, no other single system can perform similar fair runtime tests. It could be shown that native XML storage even has a good performance for simple XPath queries. When regarding navigational and update queries, the XML storage engine shows superior performance compared to relational engines. Query processing on XML data is not only restricted to XPath and XQuery. For the management of large amounts of XML documents, new operators are necessary, which perform mappings from XML documents to new XML documents. This is analogous to the relational algebra, where the base type of the operators is tuple . Compared to the relational model, the reduction to a small set of operators is not possible in the context of XML. In this thesis, a lot of new operators are presented, that are not specific for query processing inside XML database systems. They can also be used for querying the internet. Through the developed framework, it is possible to pose self-defined queries over internet sources in an easy manner.
language German
description Für die Entwicklung von vielen kleinen und großen Softwaresystemen reichen herkömmliche (objekt-)relationale Datenbanksysteme nicht mehr aus. Viele interessante Daten sind in der Praxis nicht voll strukturiert und somit nicht effektiv mit einem Standarddatenbanksystem zu verwalten. Es werden deshalb neuartige standardisierte Systeme für unstrukturierte bzw. semi-strukturierte Daten benötigt. Diese Lücke wird nun von nativen XML Datenbanksystemen geschlossen, die als Datenformat das vom W3C standardisierte XML verwenden. XML Datenbanksysteme unterstützen außerdem viele weitere XML Standards, wie beispielsweise XSchema für Grammatiken, XPath und XQuery für die Anfrageverarbeitung, XSLT für Transformationen und DOM und SAX für die Applikationsanbindung. In dieser Arbeit werden Grundlagen von nativen XML Datenbanksystemen betrachtet, sowie neue Strukturen vorgeschlagen und alte Strukturen optimiert. Es wird auf eine solide Basis zum Testen von Algorithmen Wert gelegt. Hierzu wurde ein Testframework innerhalb der Java-Bibliothek XXL implementiert und anschließend verwendet. Die XXL Bibliothek enthielt bereits vor dieser Arbeit einige Komponenten, die für die Implementierung von Datenbanksystemen eingesetzt werden konnten, beispielsweise eine generische Anfrageverarbeitung und Indexstrukturen. Zusätzlich zu den vorhandenen Komponenten wurden nun neue hinzugefügt, so z.B. eine Komponente für den direkten Festplattenzugriff, ein frei konfigurierbarer Recordmanager, sowie ein Datenbank-Framework. Das zentrale Anliegen der Arbeit ist die Optimierung der Speicherungsebene von nativen XML Datenbanksystemen. Wichtig ist, dass bei der Abbildung von XML Dokumenten auf den Externspeicher die Baumstruktur erhalten bleibt und somit eine performante Anfragenverarbeitung mit wenigen Externspeicherzugriffen möglich wird. Ähnlich wie bei R-Bäumen, können für XML Speicherungsstrukturen verschiedene Splitalgorithmen angegeben werden, die gewisse Heuristiken verfolgen. Hier zeigte sich der neu entwickelte, so genannte OneCutSplit mit Scaffold als klar überlegen gegenüber den bisher bekannten Splitalgorithmen aus der Literatur. Für das Einfügen von Dokumenten wurde weiterhin ein Bulkloading Mechanismus implementiert. Es konnte gezeigt werden, dass die Speicherstruktur für die hiermit erzeugten Dokumente deutlich besser war als bei der Benutzung von Splitalgorithmen. Dies macht sich erheblich in den Antwortzeiten von Anfragen bemerkbar. Zur Beschleunigung der Anfrageverarbeitung sind in nativen XML Datenbanksystemen Indexstrukturen unverzichtbar. Zu diesem Zweck wurde ein neuartiger Signaturindex entwickelt und in die XML Speicherungsstruktur unter Verwendung von Aggregaten integriert. Die Evaluierung des Indexes zeigte einen deutlichen Vorteil bei der Auswertung von XPath-Ausdrücken. Weiterhin konnten erstmals durch die Benutzung des Datenbank-Frameworks von XXL native Speicherungsverfahren für XML mit solchen verglichen werden, die auf relationalen Datenbanksystemen aufsetzen. Hierbei zeigte sich, dass nativer XML Speicher auch bei einfachen XPath-Anfragen gute Leistungswerte besitzt. Bei Navigations- und Änderungsoperationen ist der native XML Speicher den relationalen Verfahren deutlich überlegen. In der Anfrageverarbeitung auf XML Daten spielen allerdings nicht nur XPath und XQuery eine Rolle. Für die Bearbeitung von großen Mengen von XML Dokumenten sind Operatoren sinnvoll, welche eine Verarbeitung durch Abbildung von XML Dokumenten auf neue XML Dokumente realisieren. Dies ist analog zur relationalen Algebra, in der allerdings der Grunddatentyp Tupel Verwendung findet. Im Vergleich zum relationalen Modell werden für XML jedoch viele verschiedene Operatoren benötigt, die nicht auf wenige Grundoperationen zurückgeführt werden können. In dieser Arbeit werden einige neue Operatoren vorgestellt, die nicht nur für die Anfrageverarbeitung innerhalb von XML Datenbanksystemen, sondern auch für Anfragen im Internet geeignet sind. Durch das entwickelte Framework soll es Anwendern in Zukunft auf einfache Art und Weise möglich sein, Internetquellen in eigene Anfragen einzubauen.
institution Datenbanksysteme
title Basiskomponenten von XML Datenbanksystemen
title_short Basiskomponenten von XML Datenbanksystemen
title_full Basiskomponenten von XML Datenbanksystemen
title_fullStr Basiskomponenten von XML Datenbanksystemen
title_full_unstemmed Basiskomponenten von XML Datenbanksystemen
title_sort Basiskomponenten von XML Datenbanksystemen
author Schneider, Martin
thumbnail http://archiv.ub.uni-marburg.de/diss/z2005/0323/cover.png
spelling diss/z2005/0323 opus:1052 Generic Building Blocks for XML Database Systems urn:nbn:de:hebis:04-z2005-03239 2004 2011-08-10 2005-06-08 The development of many small and big software systems is not conceivable without state-of-the-art (object-) relational database management systems. But nowadays, a lot of interesting data is not completely structured and cannot efficiently be managed by existing systems. As a matter of fact, new standardized systems for unstructured and semi-structured data are strongly needed. The existing gap recently became narrowed by the introduction of native XML database systems. Such systems are based on the standardized data format XML of the World Wide Web consortium (W3C). Native XML database systems support a lot of open standards like XSchema for grammars, XPath and XQuery as query languages, XSLT for transformations and DOM and SAX for connecting to applications. This dissertation is concerned with the foundations of native XML database systems. Structures from literature are optimized and new structures are proposed. It is set a high value on a solid test-bed for the algorithms. Therefore, a framework has been developed which is publicly available in the Java-library XXL. The XXL library provides a lot of high level components for a comfortable implementation of database systems. The most important components are a generic query processor and advanced index structures. During this work, a lot of new components have been implemented and integrated into XXL, for example a component for low level disk access, a freely configurable record manager, and a relational database framework. The central concern of this work is the optimization of the storage level of native XML database systems. Therefore, it is important to keep the tree structure while mapping XML documents to external memory. By this means, query processing needs fewer hard disk accesses, which is most important for the performance of the database. Similar to R-trees, XML storage structures are based on split algorithms, which follow certain heuristics. The proposed so called OneCutSplit with Scaffold algorithm showed to be clearly superior to the well-known algorithms from literature. For the fast insertion of documents into a native XML database, a bulk loading mechanism has been implemented. It could be shown that the structure of bulk loaded documents is much better than the structure of documents which were constructed by split algorithms. A better structure leads to a noticeable reduction of response times of queries. The technology of XML database systems is still in its infancy and so, a lot of improvements can be achieved. For speeding up query processing, index structures are indispensable. For this purpose, a new signature index based on aggregates has been developed and also integrated into the XML storage engine. Tests have shown that this technique yields to a large benefit when evaluating XPath queries. Through the development of the database framework inside XXL, tests comparing the performance of native XML storage with relational XML storage became possible. Currently, no other single system can perform similar fair runtime tests. It could be shown that native XML storage even has a good performance for simple XPath queries. When regarding navigational and update queries, the XML storage engine shows superior performance compared to relational engines. Query processing on XML data is not only restricted to XPath and XQuery. For the management of large amounts of XML documents, new operators are necessary, which perform mappings from XML documents to new XML documents. This is analogous to the relational algebra, where the base type of the operators is tuple . Compared to the relational model, the reduction to a small set of operators is not possible in the context of XML. In this thesis, a lot of new operators are presented, that are not specific for query processing inside XML database systems. They can also be used for querying the internet. Through the developed framework, it is possible to pose self-defined queries over internet sources in an easy manner. Für die Entwicklung von vielen kleinen und großen Softwaresystemen reichen herkömmliche (objekt-)relationale Datenbanksysteme nicht mehr aus. Viele interessante Daten sind in der Praxis nicht voll strukturiert und somit nicht effektiv mit einem Standarddatenbanksystem zu verwalten. Es werden deshalb neuartige standardisierte Systeme für unstrukturierte bzw. semi-strukturierte Daten benötigt. Diese Lücke wird nun von nativen XML Datenbanksystemen geschlossen, die als Datenformat das vom W3C standardisierte XML verwenden. XML Datenbanksysteme unterstützen außerdem viele weitere XML Standards, wie beispielsweise XSchema für Grammatiken, XPath und XQuery für die Anfrageverarbeitung, XSLT für Transformationen und DOM und SAX für die Applikationsanbindung. In dieser Arbeit werden Grundlagen von nativen XML Datenbanksystemen betrachtet, sowie neue Strukturen vorgeschlagen und alte Strukturen optimiert. Es wird auf eine solide Basis zum Testen von Algorithmen Wert gelegt. Hierzu wurde ein Testframework innerhalb der Java-Bibliothek XXL implementiert und anschließend verwendet. Die XXL Bibliothek enthielt bereits vor dieser Arbeit einige Komponenten, die für die Implementierung von Datenbanksystemen eingesetzt werden konnten, beispielsweise eine generische Anfrageverarbeitung und Indexstrukturen. Zusätzlich zu den vorhandenen Komponenten wurden nun neue hinzugefügt, so z.B. eine Komponente für den direkten Festplattenzugriff, ein frei konfigurierbarer Recordmanager, sowie ein Datenbank-Framework. Das zentrale Anliegen der Arbeit ist die Optimierung der Speicherungsebene von nativen XML Datenbanksystemen. Wichtig ist, dass bei der Abbildung von XML Dokumenten auf den Externspeicher die Baumstruktur erhalten bleibt und somit eine performante Anfragenverarbeitung mit wenigen Externspeicherzugriffen möglich wird. Ähnlich wie bei R-Bäumen, können für XML Speicherungsstrukturen verschiedene Splitalgorithmen angegeben werden, die gewisse Heuristiken verfolgen. Hier zeigte sich der neu entwickelte, so genannte OneCutSplit mit Scaffold als klar überlegen gegenüber den bisher bekannten Splitalgorithmen aus der Literatur. Für das Einfügen von Dokumenten wurde weiterhin ein Bulkloading Mechanismus implementiert. Es konnte gezeigt werden, dass die Speicherstruktur für die hiermit erzeugten Dokumente deutlich besser war als bei der Benutzung von Splitalgorithmen. Dies macht sich erheblich in den Antwortzeiten von Anfragen bemerkbar. Zur Beschleunigung der Anfrageverarbeitung sind in nativen XML Datenbanksystemen Indexstrukturen unverzichtbar. Zu diesem Zweck wurde ein neuartiger Signaturindex entwickelt und in die XML Speicherungsstruktur unter Verwendung von Aggregaten integriert. Die Evaluierung des Indexes zeigte einen deutlichen Vorteil bei der Auswertung von XPath-Ausdrücken. Weiterhin konnten erstmals durch die Benutzung des Datenbank-Frameworks von XXL native Speicherungsverfahren für XML mit solchen verglichen werden, die auf relationalen Datenbanksystemen aufsetzen. Hierbei zeigte sich, dass nativer XML Speicher auch bei einfachen XPath-Anfragen gute Leistungswerte besitzt. Bei Navigations- und Änderungsoperationen ist der native XML Speicher den relationalen Verfahren deutlich überlegen. In der Anfrageverarbeitung auf XML Daten spielen allerdings nicht nur XPath und XQuery eine Rolle. Für die Bearbeitung von großen Mengen von XML Dokumenten sind Operatoren sinnvoll, welche eine Verarbeitung durch Abbildung von XML Dokumenten auf neue XML Dokumente realisieren. Dies ist analog zur relationalen Algebra, in der allerdings der Grunddatentyp Tupel Verwendung findet. Im Vergleich zum relationalen Modell werden für XML jedoch viele verschiedene Operatoren benötigt, die nicht auf wenige Grundoperationen zurückgeführt werden können. In dieser Arbeit werden einige neue Operatoren vorgestellt, die nicht nur für die Anfrageverarbeitung innerhalb von XML Datenbanksystemen, sondern auch für Anfragen im Internet geeignet sind. Durch das entwickelte Framework soll es Anwendern in Zukunft auf einfache Art und Weise möglich sein, Internetquellen in eigene Anfragen einzubauen. 2004-10-28 Basiskomponenten von XML Datenbanksystemen ths Prof. Seeger Bernhard Seeger, Bernhard (Prof.) Philipps-Universität Marburg Schneider, Martin Schneider Martin
recordtype opus
id urn:nbn:de:hebis:04-z2005-0323
urn_str urn:nbn:de:hebis:04-z2005-03239
collection Monograph
uri_str http://archiv.ub.uni-marburg.de/diss/z2005/0323
callnumber-raw diss/z2005/0323
callnumber-search diss/z2005/0323
callnumber-sort diss/z2005/0323
callnumber-label diss z2005 0323
callnumber-first diss
callnumber-subject diss z2005
_version_ 1563293707001659392
score 9,617626