Data Lakehouse
Qu’est-ce qu’un data lakehouse ?
Un data lakehouse est une architecture de gestion des données hybride qui associe les avantages de flexibilité et d’évolutivité d’un lac de données avec les structures de données et les fonctions de gestion de données d’un entrepôt de données.
Comment les entrepôts de données ont-ils évolué au cours des dernières décennies ?
Depuis plusieurs décennies, les organisations utilisent des entrepôts de données, également appelés entrepôts de données d’entreprise (EDW) pour stocker et gérer les données dont elles ont besoin pour générer des informations commerciales. Mais comme les types, les sources et les quantités de données générées se sont multipliées au fil des ans, les architectures d’entrepôt de données traditionnelles n’ont pas réussi à suivre la vitesse, la variété et les volumes des données créées quotidiennement au sein des entreprises. Et à mesure que les entreprises se sont converties aux technologies d’intelligence artificielle (IA) et de machine learning (ML) , les algorithmes utilisés par ces outils ont eu besoin d’un accès direct aux données.
En quoi consistent les lacs de données ?
Les lacs de données sont des architectures utilisées pour stocker les grandes quantités de données non structurées et semi-structurées qu’ils collectent depuis les divers systèmes, applications et appareils de leur entreprise. Les lacs de données utilisent généralement une infrastructure de stockage peu onéreuse avec une interface de programmation d’application (API) de fichier qui conservent les données dans des formats de fichier génériques et ouverts. Autrement dit, les lacs de données sont efficaces pour le stockage des données à grande échelle et les rendent aisément accessibles aux algorithmes d’IA et de ML, mais ils ne répondent pas aux exigences de qualité des données ou de gouvernance. Lorsque des données dupliquées, non pertinentes et non organisées viennent s’ajouter aux lacs de données en raison d’une mauvaise organisation ou gestion, des « marais de données » peuvent se constituer, rendant difficile l’extraction d’informations significatives à partir des données.
Quelle est la différence entre un data lakehouse, un entrepôt de données et un lac de données ?
Entrepôt de données
Un entrepôt de données est une vaste collection de données métier agrégées à partir de plusieurs sources différentes dans un magasin de données unique et cohérent. Ces plateformes sont spécifiquement conçues pour effectuer des analyses sur de grandes quantités de données structurées. Un système d’entrepôt de données extrait régulièrement des données de divers systèmes de Business Intelligence (BI), puis formate et importe ces données pour qu’elles correspondent au format et aux normes des données déjà présentes dans l’entrepôt de données. Cela permet de stocker les données dans des fichiers ou des dossiers organisés afin qu’elles soient facilement disponibles pour la génération de rapports et l’analyse.
Lac de données
Un lac de données stocke tous les types de données brutes, structurées et non structurées de toutes les sources de données d’entreprise dans leur format natif à grande échelle. Les données sont ajoutées au lac de données telles quelles, ce qui signifie qu’il n’y a pas de reformatage des nouvelles données pour les aligner sur d’autres données déjà présentes dans le système. Les lacs de données jouent un rôle clé dans la mise à disposition des données pour les systèmes d’IA et de ML et l’analyse de Big Data.
Data lakehouse
Un data lakehouse est une nouvelle architecture ouverte qui combine la flexibilité et l’évolutivité d’un lac de données avec les structures de données et les fonctionnalités de gestion des données d’un entrepôt de données. Cette combinaison fournit de l’agilité aux équipes de science des données, qui peuvent ainsi utiliser des données sans avoir besoin d’accéder à plusieurs systèmes. De plus, les data lakehouses garantissent aux scientifiques des données qu’ils disposent des données les plus complètes et les plus à jour existantes.
Comment les data lakehouses empêchent-ils la constitution de marais de données ?
La flexibilité et l’évolutivité d’un data lakehouse, associées à ses structures et à ses fonctionnalités de gestion, offrent aux équipes de data science l’agilité nécessaire pour utiliser les données sans requérir l’accès à plusieurs systèmes. Par ailleurs, les data lakehouses mettent à la disposition des expert Data les données les plus complètes et les plus à jour pour les projets de Business Analytics, d’IA et de ML.
Quels sont les avantages d’un data lakehouse ?
Une architecture de data lakehouse fournit une meilleure flexibilité dans le cadre suivant :
1. Elle élimine les tâches simples d’extraction, de transfert et de chargement (ETL), puisque les moteurs de requête sont directement connectés au lac de données.
2. Elle diminue la redondance des données en procurant un seul et même outil pour les traiter, ce qui évite d’avoir à les gérer sur plusieurs plateformes avec divers outils.
3. Elle permet une connexion directe à plusieurs outils de BI et d’analyse.
4. Elle facilite la gouvernance des données dans la mesure où les données sensibles n’ont pas besoin d’être déplacées d’un pool à un autre, et peuvent être gérées à partir d’un seul et même point.
5. Elle réduit les coûts car les données peuvent être stockées à un seul et même endroit au moyen du stockage d’objet.
Quels sont les éléments d’un data lakehouse ?
Au niveau général, il existe deux couches principales dans une architecture de data lakehouse. La plateforme lakehouse gère l’ingestion de données dans la couche de stockage (c’est-à-dire le lac de données). La couche de traitement est alors capable d’interroger directement les données dans la couche de stockage en utilisant divers outils sans que les données doivent être chargées dans un entrepôt de données ou transformées dans un format propriétaire. Les données peuvent ensuite être utilisées par les applications BI ainsi que par les outils d’IA et de ML.
Cette architecture offre la rentabilité d’un lac de données, mais comme n’importe quel type de moteur de traitement peut lire ces données, les organisations ont la possibilité de mettre les données préparées à la disposition de divers systèmes pour analyse. De cette manière, le traitement et l’analyse peuvent se faire avec de meilleures performances et à moindre coût.
L’architecture permet également à plusieurs parties de lire et d’écrire simultanément des données dans le système, car elle prend en charge les transactions de base de données qui respectent les principes ACID (atomicité, cohérence, isolation et durabilité), détaillés ci-dessous :
L’atomicité signifie que lors du traitement des transactions, soit la totalité de la transaction réussit, soit aucune partie de celle-ci ne réussit. Cela permet d’éviter la perte ou la corruption de données en cas d’interruption d’un processus.
La cohérence veille au déroulement prévisible et cohérent des transactions. Elle garantit que toutes les données soient valides selon des règles prédéfinies, en maintenant l’intégrité des données.
L’isolation assure qu’aucune transaction ne puisse être affectée par une autre transaction dans le système tant qu’elle n’est pas terminée. Cela permet à plusieurs parties de lire et d’écrire depuis le même système sans qu’elles n’interfèrent les unes avec les autres.
La durabilité garantit la persistence des modifications apportées aux données dans un système à l’issue d’une transaction, même en cas de défaillance du système. Toutes les modifications résultant d’une transaction sont stockées de manière permanente.
Solutions HPE de data lakehouse
HPE Ezmeral Unified Analytics est la première solution cloud-native à introduire sur site l’analyse Apache Spark basée sur Kubernetes et la simplicité des data lakehouses unifiées utilisant Delta Lake. Le service modernise les données et les applications héritées pour optimiser les charges de travail gourmandes en données de l’edge au cloud, et pour offrir l’évolutivité et l’élasticité nécessaires aux analyses avancées. Conçue dès le départ pour être ouvert et hybride, sa stack 100 % open source libère la plateforme de données des organisations de l’enfermement propriétaire.
Au lieu d’exiger que toutes les données d’une organisation soient stockées dans un cloud public, HPE Ezmeral Unified Analytics est optimisé pour les déploiements sur site et hybrides, et utilise un logiciel open source pour assurer la portabilité des données en fonction des besoins. Sa flexibilité et son évolutivité lui permettent de s’adapter aux ensembles de données ou aux data lakehouses des grandes entreprises, afin que les clients disposent partout de l’élasticité requise pour les analyses avancées.
Disponible sur la plateforme HPE GreenLake Edge to Cloud, cette expérience de données unifiée permet aux équipes de se connecter en toute sécurité aux données là où elles sont, sans perturber les schémas d’accès aux données existants. Elle comprend une plateforme de data lakehouse évolutive optimisée pour Apache Spark qui est déployée sur site. Les scientifiques des données profitent d’une plateforme d’analyse de données et d’applications élastique et unifiée sur site, dans l’edge et les clouds publics, ce qui leur permet d’accélérer les workflows d’IA et ML.