Data Lakehouse

Was ist ein Data Lakehouse?

Ein Data Lakehouse ist eine hybride Datenmanagement-Architektur, die die Flexibilität und Skalierbarkeit eines Data Lakes mit den Datenstrukturen und Datamanagement-Funktionen eines Data Warehouse kombiniert.

Wie haben sich Data Warehouses in den letzten Jahrzehnten verändert?

Unternehmen nutzen Data Warehouses, auch bekannt als Enterprise Data Warehouses (EDWs), seit Jahrzehnten, um die Daten zu speichern und zu managen, die sie zur Gewinnung von Unternehmenseinblicken benötigen. Da sich jedoch die Arten, Quellen und Mengen der generierten Daten im Laufe der Jahre vervielfacht haben, konnten herkömmliche Data-Warehouse-Architekturen nicht vollständig mit der Geschwindigkeit, der Vielfalt und dem Volumen der Geschäftsdaten Schritt halten, die täglich in Unternehmen entstehen. Und als Unternehmen zunehmend Technologien für künstliche Intelligenz (KI) und maschinelles Lernen (ML) einsetzten, benötigten die von diesen Tools verwendeten Algorithmen direkten Zugriff auf die Daten.

Zugehörige HPE Lösungen, Produkte oder Services

Was sind Data Lakes?

Data Lakes sind Architekturen zur Speicherung der riesigen Mengen unstrukturierter und halbstrukturierter Daten, die sie aus den verschiedenen Geschäftsanwendungen, Systemen und Geräten ihres Unternehmens sammeln. Data Lakes verwenden in der Regel eine kostengünstige Speicherinfrastruktur mit einer Anwendungsprogrammierschnittstelle (API), die Daten in generischen, offenen Dateiformaten speichert. Das bedeutet, dass Data Lakes nützlich sind, um Daten in großem Umfang zu speichern und sie für KI- und ML-Algorithmen verfügbar zu machen, aber sie erfüllen nicht die Anforderungen an die Datenqualität oder Governance. Wenn aufgrund schlechter Organisation oder Management doppelte, irrelevante und unorganisierte Daten zu Data Lakes hinzugefügt werden, können diese zu einem so genannten Datensumpf werden, der es schwierig macht, sinnvolle Erkenntnisse aus den enthaltenen Daten zu gewinnen.

Was ist der Unterschied zwischen einem Data Lakehouse, einem Data Warehouse und einem Data Lake?

Data Warehouse

Ein Data Warehouse ist eine große Sammlung von Geschäftsdaten, die aus mehreren verschiedenen Quellen in einem einzigen, konsistenten Datenspeicher zusammengefasst werden. Diese Plattformen sind speziell für die Analyse großer Mengen strukturierter Daten konzipiert. Ein Data-Warehouse-System bezieht regelmäßig Daten aus verschiedenen Business Intelligence (BI)-Systemen und formatiert und importiert diese Daten dann so, dass sie dem Format und den Standards der bereits im Data Warehouse vorhandenen Daten entsprechen. Auf diese Weise können die Daten in geordneten Dateien oder Ordnern gespeichert werden, sodass sie für Reports und Datenanalysen sofort verfügbar sind. 

 

Data Lake

Ein Data Lake speichert alle Arten von rohen, strukturierten und unstrukturierten Daten aus allen Unternehmensdatenquellen in ihrem nativen Format in großem Maßstab. Die Daten werden dem Data Lake so hinzugefügt, wie sie sind, d. h. es findet keine Neuformatierung der neuen Daten statt, um sie mit anderen, bereits im System vorhandenen Daten abzugleichen. Data Lakes spielen eine Schlüsselrolle bei der Bereitstellung von Daten für KI- und ML-Systeme und Big Data-Analysen.

Data Lakehouse

Ein Data Lakehouse ist eine neue, offene Architektur, die die Flexibilität und Skalierbarkeit eines Data Lakes mit ähnlichen Datenstrukturen und Datenmanagementfunktionen eines Data Warehouse kombiniert. Diese Kombination von Funktionen ermöglicht Flexibilität für Data Science Teams, da sie Daten nutzen können, ohne auf mehrere Systeme zugreifen zu müssen. Data Lakehouses stellen außerdem sicher, dass Data Scientists über möglichst vollständige und aktuelle Daten verfügen.

Wie verhindern Data Lakehouses Datensümpfe?

Die Flexibilität und Skalierbarkeit eines Data Lakehouse, kombiniert mit seinen Strukturen und Managementfunktionen, bietet Data-Science-Teams die Flexibilität, Daten zu nutzen, ohne auf mehrere Systeme zugreifen zu müssen. Data Lakehouses stellen außerdem sicher, dass Data Scientists über die vollständigsten und aktuellsten Daten für Geschäftsanalysen, KI- und ML-Projekte verfügen.

Was sind die Vorteile eines Data Lakehouse?

Data Lakehouse-Architekturen bieten mehr Flexibilität:

1.       Sie eliminieren einfache Extraktions-, Transfer- und Ladevorgänge (ETL), da die Abfrage-Engines direkt mit dem Data Lake verbunden sind.

2.       Sie reduzieren die Datenredundanz durch ein einziges Tool zur Datenverarbeitung, anstatt Daten auf mehreren Plattformen mit mehreren Tools zu managen.

3.       Sie ermöglichen eine direkte Verbindung zu mehreren BI- und Analysetools.

4.       Sie erleichtern die Data Governance, da vertrauliche Daten nicht von einem Datenpool in einen anderen verschoben werden müssen und zentral verwaltet werden können.

5.       Sie tragen zur Kostensenkung bei, da die Daten mithilfe con  Object-Storage an einem Ort gespeichert werden können.

Was sind die Elemente eines Data Lakehouse?

Die Architektur eines Data Lakehouse besteht im Wesentlichen aus zwei Ebenen. Die Lakehouse-Plattform managt die Aufnahme von Daten in die Speicherebene (d. h. den Data Lake). Die Verarbeitungsebene kann dann die Daten in der Speicherebene mit einer Vielzahl von Tools direkt abfragen, ohne dass die Daten in ein Data Warehouse geladen oder in ein proprietäres Format umgewandelt werden müssen. Die Daten können dann sowohl von BI-Anwendungen als auch von KI- und ML-Tools verwendet werden.

Diese Architektur bietet die Wirtschaftlichkeit eines Data Lake, aber da jede Art von Verarbeitungsmaschine diese Daten lesen kann, haben Unternehmen die Flexibilität, die aufbereiteten Daten für die Analyse durch eine Vielzahl von Systemen zur Verfügung zu stellen. Auf diese Weise können Verarbeitung und Analyse mit höherer Leistung und geringeren Kosten durchgeführt werden.

Die Architektur ermöglicht es außerdem mehreren Parteien, gleichzeitig Daten innerhalb des Systems zu lesen und zu schreiben, da sie Datenbanktransaktionen unterstützt, die den ACID-Prinzipien (Atomarität, Konsistenz, Isolation und Dauerhaftigkeit) entsprechen (siehe unten):

Atomarität bedeutet, dass bei der Verarbeitung von Transaktionen entweder die gesamte Transaktion erfolgreich ist oder nichts davon. Dies hilft, Datenverlust oder -beschädigung im Falle einer Unterbrechung eines Prozesses zu verhindern.

Konsistenz sorgt dafür, dass Transaktionen auf vorhersehbare, konsistente Weise ablaufen. Sie stellt sicher, dass alle Daten gemäß den vordefinierten Regeln gültig sind und die Integrität der Daten gewahrt bleibt.

Die Isolierung garantiert, dass keine Transaktion von einer anderen Transaktion im System beeinflusst werden kann, bis sie abgeschlossen ist. So können mehrere Parteien gleichzeitig im selben System lesen und schreiben, ohne dass sie sich gegenseitig stören.

Die Dauerhaftigkeit stellt sicher, dass Änderungen an den Daten in einem System auch nach Abschluss einer Transaktion erhalten bleiben, selbst wenn es zu einem Systemausfall kommt. Alle Änderungen, die sich aus einer Transaktion ergeben, werden dauerhaft gespeichert.

HPE Data-Lakehouse-Lösungen

HPE Ezmeral Unified Analytics ist die erste Cloud-native Lösung, die Kubernetes-basierte Apache Spark Analysen und die Einfachheit von Unified Data Lakehouses mit Delta Lake vor Ort bietet. Der Service modernisiert ältere Daten und Anwendungen, um datenintensive Workloads von Edge-to-Cloud zu optimieren und die für fortschrittliche Analysen erforderliche Skalierbarkeit und Elastizität zu bieten. Delta Lake wurde von Grund auf als offene und hybride Lösung entwickelt und sein 100%-iger Open-Source-Stack befreit Unternehmen von der Abhängigkeit von einem bestimmten Anbieter für ihre Datenplattform.

Anstatt dass alle Daten eines Unternehmens in einer Public Cloud gespeichert werden müssen, ist HPE Ezmeral Unified Analytics optimiert für Hybrid- und Vor-Ort-Implementierungen optimiert und verwendet Open-Source-Software, um eine bedarfsgerechte Datenportabilität zu gewährleisten. Seine Flexibilität und Skalierbarkeit kann große Unternehmensdatensätze oder Lakehouses aufnehmen, sodass Kunden die Elastizität haben, die sie für fortschrittliche Analysen benötigen – überall.

Dieses einheitliche Datenerlebnis, das auf der HPE GreenLake Edge-to-Cloud-Plattform verfügbar ist, ermöglicht es Teams, sich sicher mit Daten dort zu verbinden, wo sie aktuell gespeichert sind, ohne die bestehenden Datenzugriffsmuster zu unterbrechen. Es umfasst eine skalierbare Data Lakehouse-Plattform, die für Apache Spark optimiert ist und vor Ort eingesetzt wird. Data Scientists sind in der Lage, eine elastische, einheitliche Analyseplattform für Daten und Anwendungen vor Ort, am Edge und in Public Clouds zu nutzen, um KI- und ML-Workflows zu beschleunigen.