Delta Lake Qu’est-ce qu’un Delta Lake ?
Un Delta Lake est une couche de stockage open source conçue pour s’exécuter au-dessus d’un lac de données existant, et qui en améliore la fiabilité, la sécurité et les performances. Les Delta Lakes prennent en charge les transactions ACID, les métadonnées évolutives, le streaming unifié et le traitement de données par lots.
- Que fait un Delta Lake ?
- Comment fonctionne un Delta Lake ?
- Quelles sont les caractéristiques et les avantages de Delta Lake ?
- Delta Lakes, lacs de données et entrepôts de données
- HPE et Delta Lake
Que fait un Delta Lake ?
Les entreprises d’aujourd’hui génèrent d’énormes quantités de données, qui peuvent être une source précieuse de business intelligence et d’informations si elles peuvent être correctement exploitées. Delta Lake permet aux organisations d’accéder et d’analyser de nouvelles données en temps réel.
Comment fonctionne un Delta Lake ?
Un Delta Lake ajoute une couche de gestion et de gouvernance intelligentes des données à un environnement de stockage ouvert pour données structurées, semi-structurées et non structurées, prenant en charge les opérations en continu et par lots à partir d’une source unique.
Quelles sont les caractéristiques et les avantages de Delta Lake ?
- Format ouvert : Delta Lake utilise le format open source Apache Parquet et est entièrement compatible avec le moteur analytique unifié Apache Spark pour des opérations puissantes et flexibles.
- Transactions ACID : Delta Lake permet des transactions ACID (atomicité, cohérence, isolation, durabilité) pour les charges de travail de Big Data. Il capture toutes les modifications apportées aux données dans un journal de transactions sérialisé, protégeant l’intégrité et la fiabilité des données et fournissant des pistes d’audit complètes et précises.
- Voyage dans le temps : le journal des transactions de Delta Lake fournit un enregistrement principal de chaque modification apportée aux données, ce qui permet de recréer l’état exact d’un ensemble de données à tout moment. La gestion des versions des données rend les analyses de données et les expériences complètement reproductibles.
- Application du schéma : Delta Lake protège la qualité et la cohérence de vos données grâce à une application de schéma robuste, garantissant que les types de données sont corrects et complets, tout en empêchant les données défectueuses de détériorer les processus critiques.
- Fusionner, mettre à jour, supprimer : Delta Lake prend en charge les opérations de langage de manipulation de données (DML), y compris les commandes de fusion, de mise à jour et de suppression pour la conformité et les cas d’utilisation complexes tels que les upserts en continu, la capture de données modifiées, les opérations de dimension à changement lent (SCD), etc.
Delta Lakes, lacs de données et entrepôts de données
Un Delta Lake combine les avantages des lacs de données et des entrepôts de données pour créer un data lakehouse évolutif et rentable. En savoir plus sur les Delta Lakes et les lacs de données, sur les data lakehouses et les entrepôts de données.
Delta Lake
Un Delta Lake, une évolution du stockage de données, préserve l’intégrité de vos données d’origine sans sacrifier les performances et l’agilité requises pour les applications d’analyse en temps réel, d’intelligence artificielle (IA) et de machine learning.
Lac de données
Un lac de données est une accumulation massive de données brutes dans de multiples formats. Le volume et la variété des informations contenues dans un lac de données peuvent compliquer l’analyse et, sans audit ni gouvernance, la qualité et la cohérence des données peuvent être peu fiables.
Data lakehouse
Un data lakehouse combine la flexibilité et l’évolutivité d’un lac de données avec la structure et les fonctionnalités de gestion d’un entrepôt de données dans une plateforme simple et ouverte.
Entrepôt de données
Un entrepôt de données rassemble des informations provenant de plusieurs sources, puis les reformate et les organise en un grand volume consolidé de données structurées optimisées pour l’analyse et la génération de rapports. Un logiciel propriétaire et une incapacité à stocker des données non structurées peuvent limiter son utilité.
HPE et Delta Lake
- La plateforme Edge to Cloud HPE GreenLake est basée sur le logiciel HPE Ezmeral et optimisée pour l’analyse Apache Spark basée sur Kubernetes avec l’intégration de Delta Lake.
- HPE Ezmeral et Apache Spark 3.0 avec Delta Lake fournissent des données fiables et cohérentes pour les applications de business analytics et de machine learning. L’orchestration de cluster basée sur Kubernetes permet une mise à l’échelle dynamique pour les charges de travail gourmandes en données.
- HPE Ezmeral Runtime assure une gestion de clusters et d’applications exceptionnelles pour infrastructures physiques et fondées sur le cloud.
- HPE Ezmeral Data Fabric améliore la gestion des données et le stockage locataire.