Delta Lake
Cos’è un Delta Lake?
Un Delta Lake è un livello di storage open source progettato per l’esecuzione su un data lake esistente, migliorandone l’affidabilità, la sicurezza e le prestazioni. I Delta Lake supportano transazioni ACID, metadati scalabili, streaming unificato ed elaborazione dei dati in batch.
Qual è la funzione di un Delta Lake?
Le aziende odierne generano enormi quantità di dati, una preziosa fonte di business intelligence e informazioni se utilizzati correttamente. Un Delta Lake consente alle organizzazioni di accedere a nuovi dati e analizzarli in tempo reale.
Come funziona un Delta Lake?
Un Delta Lake aggiunge un livello di governance e gestione dei dati intelligente in un ambiente di storage aperto per dati non strutturati, strutturati e semi-strutturati supportando sia lo streaming sia le operazioni batch da un’unica origine.
Quali sono le caratteristiche e i vantaggi di Delta Lake?
Formato aperto: Un Delta Lake utilizza il formato Apache Parquet open source ed è pienamente compatibile con il motore di analisi unificata Apache Spark per operazioni potenti e flessibili.
Transazioni ACID: Delta Lake supporta le transazioni ACID (Atomicity, Consistency, Isolation, Durability) per i carichi di lavoro dei Big Data. Acquisisce tutte le modifiche apportate ai dati in un log delle transazioni serializzato, proteggendo l’integrità e l’affidabilità dei dati e fornendo audit trail completi e precisi.
Viaggio nel tempo: il log delle transazioni di Delta Lake fornisce un record master di ogni modifica apportata ai dati consentendo di ricreare lo stato preciso di un set di dati in qualsiasi momento. Il controllo delle versioni dei dati supporta la riproduzione completa di analisi ed esperimenti.
Applicazione dello schema: Delta Lake protegge la qualità e l’uniformità dei dati con una solida applicazione dello schema, garantendo che i tipi di dati siano corretti e completi e impedendo il danneggiamento dei processi critici da parte di dati non validi.
Unificazione, aggiornamento, eliminazione: Delta Lake supporta operazioni Data Manipulation Language (DML) tra cui l’unificazione, l’aggiornamento e l’eliminazione dei comandi per compliance e casi d’uso complessi come lo streaming degli upsert, change-data capture, slowly-changing-dimension (SCD) e altro ancora.
Confronto tra Delta Lake, data lake e data warehouse
Delta Lake abbina i vantaggi dei data lake e dei data warehouse per creare un data lakehouse scalabile e a costi contenuti. Scopri le differenze tra delta lake, data lakehouse e data warehouse.
Delta Lake
Delta Lake, un’evoluzione dello storage dati, preserva l’integrità dei dati originali senza sacrificare le prestazioni e l’agilità richiesti per le applicazioni di analisi in tempo reale, intelligenza artificiale (AI) e machine learning (ML).
Data lake
Un data lake è un enorme raggruppamento di dati non elaborati in più formati. Il volume e la varietà delle informazioni in un data lake possono complicare l’analisi e, senza auditing o governance, la qualità e l’uniformità dei dati può risultare inaffidabile.
Data lakehouse
Un data lakehouse abbina la flessibilità e la scalabilità di un data lake con le caratteristiche di struttura e gestione di un data warehouse in una piattaforma semplice, aperta.
Data warehouse
Un data warehouse acquisisce informazioni da diverse origini, le riformatta e le organizza in un grande volume consolidato di dati strutturati, ottimizzati per l’analisi e la generazione di report. Il software proprietario e l’incapacità di archiviare dati non strutturati può limitarne l’utilità.
HPE e Delta Lake
La piattaforma edge to cloud HPE GreenLake è costruita a partire dal software HPE Ezmeral e ottimizzata per l’analisi Apache Spark basata su Kubernetes con integrazione di Delta Lake.
HPE Ezmeral e Apache Spark 3.0 con Delta Lake offrono dati affidabili e uniformi per le applicazioni di business analytics e machine learning. L’orchestrazione dei cluster basata su Kubernetes consente la scalabilità dinamica per i carichi di lavoro a uso intensivo di dati.
HPE Ezmeral Runtime offre gestione delle applicazioni e dei cluster leader di settore per le infrastrutture fisiche e basate su cloud.
HPE Ezmeral Data Fabric ottimizza la gestione dei dati e lo storage tenant.