HDBC - Hauptspeicherdatenbanken in der Cloud

01.06.2012 -

Abgeschlossen
TU München & Software AG

Name des Teilnehmers: Tobias Mühlbauer

Beschreibung des IT-Forschungsprojekts: Unternehmen und wissenschaftliche Projekte sehen sich mit der Herausforderung konfrontiert, dass zunehmend mehr Daten innerhalb immer kürzerer Zeitspannen (oft quasi in Realzeit) in ihrer Datenbasis bearbeitet und aggregiert werden. Von diesen Daten unterliegt ein Großteil ständigen Änderungen, etwa durch die Geschäftsprozesse in Unternehmen oder durch neue Erkenntnisse und Messwerte in wissenschaftlichen Datensammlungen. Gleichzeitig wird es immer dringlicher Entscheidungen schneller und genauer zu treffen. Diese Entscheidungen sind in den meisten Fällen von Analysen der zuvor genannten sich schnell ändernden Datenbasis abhängig. Es ist deshalb wünschenswert, analytische Anfragen zur Entscheidungsunterstützung auf dem aktuell gültigen Datenbestand effizient auswerten zu können. Eine zentrale Datenhaltung kann auf Grund der enormen Datenmengen und Anfragelast oft nicht hoch genug skaliert werden, um den Anforderungen gerecht zu werden. Um dieses Hindernis zu überwinden müssen Daten auf mehrere physikalische Systeme verteilt werden. Ebenso scheitern zentralisierte Ansätze oft an der geographisch weltweiten Verteilung der Aktoren, welche mit einem Datenbestand interagieren. Auch hier kann eine Verteilung oder Replikation der Daten auf geographisch verteilten Systemen helfen, die Verfügbarkeit zu erhöhen und die Anfragegeschwindigkeit, nicht zuletzt durch geringere Latenzzeiten, zu optimieren.

Das Ziel des Forschungsprojekts war es, ein sich selbst organisierendes Informationssystem auf einer verteilten Infrastruktur zu konzipieren, welches den eingangs genannten Herausforderungen mit der Geschwindigkeit von Hauptspeicher-Datenbanken zu begegnen versucht. Die Knoten in dieser verteilten Infrastruktur betreiben dabei jeweils ein hochperformantes Hauptspeicher-Datenbanksystem. HyPer, ein am Lehrstuhl für Datenbanksysteme der Technischen Universität München entwickeltes modernes Hauptspeicher-Datenbanksystem, bot sich hierbei als eine mögliche Datenbanklösung an; aber auch andere SQL-basierte Hauptspeicher-Datenbanksysteme sind einsetzbar. Diese Systeme ermöglichen schnell ändernde Datenbestände sowie gleichzeitig stattfindende effiziente Datenanalysen.

Zusammenfassend ergaben sich die folgenden Herausforderungen für heutige Informationssysteme im betrieblichen und wissenschaftlichen Umfeld:

1. Daten wachsen und ändern sich zunehmend schneller. Zentralisierte Ansätze (single server) können an der Notwendigkeit mit dem Zuwachs an Daten und Anfragelast zu skalieren scheitern, oder nur mit mangelnder Kosteneffizienz bereitgestellt werden; ebenso sind zentralisierte Ansätze für Systemausfälle und Angriffe von außen (safety und security) anfälliger.

2. Es wächst der Wunsch nach einer Echtzeit-Entscheidungsunterstützung welche auf Analysen und Auswertungen der aktuellen Datenbasis beruhen.

3. Unternehmen und Forschungseinrichtungen agieren global und Standorte sind geographisch verteilt; und die Quality-of-Service eines Informationssystems soll für geographisch verteilte Aktoren nahezu gleich sein.

Folgenden wissenschaftliche und technische Ziele wurden für das Forschungsprojekt gesetzt:

1. Konzeption eines (in der Regel geographisch global) sich selbst organisierenden verteilten Informationssystems, welches mit wachsenden Anforderungen in Speicherkapazität und Anfragelast skalieren kann. Die Knoten dieses Informationssystems sollten dabei jeweils ein modernes Hauptspeicher-Datenbanksystem betreiben. 

2. Entwurf einer verteilten Anfragebearbeitung, die sich insbesondere folgenden Herausforderungen stellen muss: Latenzzeiten im Netzwerk, größerer Suchraum für die Anfrageoptimierung, unberechenbare Anfragelast und Anfrageverteilung sowie mögliche Schieflage der verwalteten Daten.

3. Evaluation der Performanz des verteilten Informationssystems in Bezug auf schnelle Entscheidungsunterstützung (“real-time business intelligence”) bei sich gleichzeitig schnell ändernder Datenbasis.

Software Campus-Partner: TU MünchenSoftware AG

Umsetzungszeitraum: 01.06.2012 - 31.05.2014