Data Lake

Was ist ein Data Lake?

Ein Data Lake ist ein zentraler Ort innerhalb von Cloud-Architekturen, an dem sich große Mengen Rohdaten in ihrem nativen Format befinden. Anders als Data Warehouses oder Silos nutzen Data Lakes eine flache Architektur mit Objektspeicher für die Metadaten der Dateien.

Wie wurden Data Lakes entwickelt?

Der Begriff „Data Lake“ stammt aus dem Jahr 2015, doch das Konzept wird bereits seit mehr als einem Jahrzehnt in der Praxis angewendet. Data Lakes erfüllen den Bedarf an skalierbaren Daten-Repositorys, in denen zahlreiche Dateitypen und Quellen gespeichert werden können, um sie anschließend zu analysieren.

Ein Data Lake kann als zentraler Ort betrachtet werden, an dem sich Petabytes an Rohdaten in ihrem nativen Format befinden. Anders als bei einem hierarchischen Data Warehouse, in dem Daten in Dateien und Ordnern gespeichert sind, nutzen Data Lakes eine flache Architektur mit objektbasiertem Speicher. Durch die Nutzung von Metadaten-Tags und Identifikatoren können Big Data-Prozesse Daten in unterschiedlichen Regionen einfacher und leistungsstärker lokalisieren und abrufen, während gleichzeitig mehrere Anwendungen von ihrem Format profitieren.

Warum entscheiden Unternehmen sich für Data Lakes?

Data Lakes bieten Unternehmen die Möglichkeit, unformatierte Rohdaten in strukturierte Daten umzuwandeln, die für SQL-basierte Analysen, Data Science und maschinelles Lernen verwendet werden können, jedoch mit geringerer Latenz. Alle Datentypen können einfacher erfasst und unbegrenzt gespeichert werden, einschließlich Streaming-Images, Videos, Binärdateien und mehr. Da der Data Lake für zahlreiche Dateitypen geeignet ist und einen sicheren Speicherort für neue Dateien darstellt, kann er einfacher auf einem aktuellen Stand gehalten werden.

Durch diese Flexibilität ermöglichen Data Lakes Benutzern mit unterschiedlichen Kenntnissen, regionalen Standorten und Sprachen das Ausführen der von ihnen benötigten Aufgaben. Im Gegensatz zu den durch Data Lakes ersetzten Data Warehouses und Silos bieten Data Lakes eine deutliche Flexibilität für Big Data- und ML-Anwendungen.

Data Lake vs. Data Warehouse

Wenngleich sowohl Data Lakes als auch Warehouses genutzt werden können, um große Datenmengen zu speichern, bestehen einige wesentliche Unterschiede in der Art des Datenzugriffs oder der Datennutzung. Data Lakes speichern unformatierte Daten praktisch jeden Dateityps. Alternativ speichert ein Data Warehouse Daten, die bereits für einen bestimmten Zweck strukturiert und gefiltert wurden.

Dank ihres offenen Formats benötigen Data Lakes keinen bestimmten Dateityp und die Benutzer begeben sich nicht in eine Anbieterabhängigkeit. Ein Vorteil von Data Lakes im Vergleich zu Silos oder Warehouses und einer strukturierteren Umgebung ist die Möglichkeit, jeden beliebigen Daten- oder Dateityp zu speichern. Ein weiterer Vorteil besteht darin, dass der Zweck zum Zeitpunkt der Einrichtung noch nicht bestimmt werden muss, anders als bei einem Data Warehouse, das als Repository für gefilterte Daten erstellt wird, die bereits zu einem bestimmten Zweck verarbeitet wurden.

Ein zentraler Data Lake ist Silos und Warehouses vorzuziehen, da er Probleme wie Datenduplikate, redundante Sicherheitsrichtlinien und Schwierigkeiten bei der Zusammenarbeit zwischen mehreren Benutzern beseitigt. Für den nachgelagerten Benutzer erscheint ein Data Lake wie ein einzelner Ort, um nach mehreren Datenquellen zu suchen oder diese zu interpolieren.

Data Lakes sind aufgrund ihrer Skalierbarkeit sowie ihrer Fähigkeit, Objektspeicher zu nutzen, ebenfalls vergleichsweise langlebig und wirtschaftlich. Und da erweiterte Analysen und maschinelles Lernen mit unstrukturierten Daten für viele heutige Unternehmen zunehmend Priorität genießen, sind Data Lakes dank der Fähigkeit zur Aufnahme von Rohdaten in strukturierten, semistrukturierten und unstrukturierten Formaten zunehmend als Datenspeicher gefragt.

Verständnis der Data Lake-Architektur

Der erste Kontaktpunkt eines Data Lakes ist die Erfassungsebene. Einfach ausgedrückt, werden hier die Rohdaten dem Data Lake hinzugefügt. In On-Premises Umgebungen wird das Apache Hadoop File System (HDFS) genutzt, bei dem Dateien und Daten in einer häufig als „Erkenntnisebene“ bezeichneten Schicht migriert werden, wobei die für Datenanalysen relevanten Informationen in der Umgebung gecacht werden. Ob der Benutzer SQL oder NoSQL für Abfragen nutzt, die Informationen aus den Rohdaten werden nun zur Destillations- (oder Verarbeitungs-)Ebene verschoben. Hier werden die Metadaten in strukturierte Daten umgewandelt, um dann von Data Managern und Administratoren genutzt zu werden.

Auf der einheitlichen Prozessebene werden durch die Sytemverwaltung und -überwachung umfassende Prüfungen durchgeführt und Eignung, Daten- sowie Workflow-Management sichergestellt. Darüber hinaus ist es wichtig, dass die Daten kontinuierlich in Bezug auf potenzielle Sicherheits- und Compliance-Probleme überprüft werden. Datenorientierte Unternehmenskunden benötigen Echtzeit-Aktualisierungen, um die Trends zu identifizieren und die Erkenntnisse zu gewinnen, die ein Data Lake bietet.

Der Zweck eines Data Lakes ist Datenzugriff- und Datennutzung. Ohne einen Katalog verlangsamen die Ineffizienzen beim Profiling eines Datenbestandes auf seine Integrität hin durch einen Benutzer den Betrieb. In ähnlicher Weise schreibt die Governance vor, dass keine Compliance- und Sicherheitsprobleme vorliegen, personenbezogene Daten aus Dateien entfernt werden, und der Data Lake die Möglichkeit unterstützt, bestimmte Daten ohne Nutzungsbeeinträchtigung zu löschen.

Was sind Data Lake-Plattformen?

Nahezu alle großen Cloud-Service-Anbieter bieten moderne Data Lake-Lösungen. On-Premises Rechenzentren nutzen weiterhin das Hadoop File System (HDFS) als Quasi-Standard. Da die Unternehmen weiterhin verstärkt zu Cloud-Umgebungen wechseln, stehen Data Scientists, Ingenieuren und IT-Experten zahlreiche Optionen zur Verfügung, um von den erweiterten Möglichkeiten zu profitieren, die eine Verschiebung ihres Datenspeichers in eine Cloud-basierte Data Lake-Umgebung bietet.

Data Lakes sind besonders bei der Arbeit mit Streaming-Daten hilfreich, z. B. JSON. Die drei typischsten Anwendungsfälle sind Geschäftsanalysen oder Business Intelligence, Data Science mit Schwerpunkt auf maschinellem Lernen und Datenbereitstellung – Hochleistungsanwendungen, die von Echtzeitdaten abhängig sind.

Alle großen Cloud-Service-Anbieter, von Amazon Web Services (AWS) über Microsoft Azure bis hin zu Google BigQuery, bieten die für Cloud-basierte Data Lakes erforderlichen Datenspeicher und Services an. Welches Maß an Integration ein Unternehmen auch anstrebt – von einfachen Sicherungen bis hin zur vollständigen Integration –stehen zahlreiche Optionen zur Verfügung.

Wie werden Data Lakes genutzt?

Anders als noch vor zwei oder drei Jahrzehnten basieren die meisten Geschäftsentscheidungen nicht mehr auf in Warehouses gespeicherten Transaktionsdaten. Der grundlegende Wandel von einem strukturierten Data Warehouse zu einer flexiblen modernen Data Lake-Struktur ist die Reaktion auf sich verändernde Anforderungen und Möglichkeiten moderner Big Data- und Data Science-Anwendungen.

Obwohl weiterhin fast täglich neue Anwendungen hinzukommen, konzentrieren sich einige der typischeren Anwendungen für den modernen Data Lake auf die schnelle Erfassung und Analyse neuer Daten. Beispielsweise kann ein Data Lake die Kundendaten einer CRM-Plattform mit Social Media-Analysen oder einer Marketing-Plattform kombinieren, die eine Kunden-Kaufhistorie beinhaltet. Durch eine solche Kombination kann ein Unternehmen potenzielle Gewinnmöglichkeiten oder die Ursachen für Kundenabwanderung besser verstehen.

In ähnlicher Weise ermöglicht ein Data Lake Forschungs- und Entwicklungsteams den Test von Hypothesen und die Bewertung der Ergebnisse. Mit stetig zunehmenden Möglichkeiten der Datenerfassung in Echtzeit beschleunigt ein Data Lake die Speicher- oder Analyseverfahren, gestaltet sie intuitiver und erhöht die Zugänglichkeit für Ingenieure.

HPE und Data Lakes

Heute Unternehmen nutzen Big Data, um ihre größten Herausforderungen zu bewältigen. Hadoop war erfolgreich, um eine Wertschöpfung aus unstrukturierten Daten zu erzielen, doch nun suchen Unternehmen neuere und bessere Möglichkeiten, dies zu bewerkstelligen.

Heutige Unternehmen investieren in erheblichem Umfang in Analysen – von Systemen über Data Scientists bis hin zum IT-Personal – um ihr lokales Hadoop-basiertes Data Management zu implementieren, zu betreiben und zu pflegen. Wie bei jeder Datenumgebung kann sich der Kapazitätsbedarf exponentiell verändern.

HPE GreenLake bietet Unternehmen eine vollständig skalierbare, Cloud-basierte Lösung, die ihre Hadoop-Nutzung grundlegend vereinfacht, Komplexitäten und Kosten beseitigt und stattdessen die Konzentration auf die Gewinnung von Erkenntnissen aus Daten ermöglicht. HPE GreenLake bietet eine vollständige End-to-End-Lösung mit Hardware, Software und HPE Services.

HPE GreenLake maximiert das Potenzial Ihrer Daten, indem die Vorteile des lokalen HDFS Data Lakes und zugleich die Cloud-basierten Vorteile und Erkenntnisse vollständig genutzt werden.