Delta Lake Cos’è Delta Lake?
Delta Lake è un livello di storage open source progettato per l’esecuzione su un data lake esistente, migliorandone l’affidabilità, la sicurezza e le prestazioni. Supporta le transazioni ACID, i metadati scalabili, lo streaming unificato e l’elaborazione dei dati in batch.
- Qual è la funzione di Delta Lake?
- Come funziona Delta Lake?
- Quali sono le caratteristiche e i vantaggi di Delta Lake?
- Confronto tra Delta Lake, data lake e data warehouse
- HPE e Delta Lake
Qual è la funzione di Delta Lake?
Le aziende odierne generano enormi quantità di dati, che costituiscono una preziosa fonte di business intelligence e informazioni se utilizzati correttamente. Delta Lake consente alle organizzazioni di accedere ai nuovi dati e analizzarli in tempo reale.
Come funziona Delta Lake?
Delta Lake aggiunge un livello di governance e gestione dei dati intelligente in un ambiente di storage aperto per i dati non strutturati, strutturati e semi-strutturati, supportando sia lo streaming sia le operazioni batch da un’unica origine.
Quali sono le caratteristiche e i vantaggi di Delta Lake?
- Formato aperto: Delta Lake utilizza il formato Apache Parquet open source ed è pienamente compatibile con il motore di analisi unificata Apache Spark per operazioni potenti e flessibili.
- Transazioni ACID: Delta Lake supporta le transazioni ACID (Atomicity, Consistency, Isolation, Durability) per i carichi di lavoro dei Big Data. Acquisisce tutte le modifiche apportate ai dati in un log delle transazioni serializzato, preservando l’integrità e l’affidabilità dei dati e fornendo audit trail completi e precisi.
- Viaggio nel tempo: il log delle transazioni di Delta Lake fornisce un record master di ogni modifica apportata ai dati, consentendo di ricreare lo stato preciso di un determinato set in qualsiasi momento. Il controllo delle versioni supporta la riproduzione completa di analisi ed esperimenti.
- Applicazione dello schema: Delta Lake protegge la qualità e l’uniformità dei dati con una solida applicazione dello schema, garantendo la correttezza e la completezza delle tipologie e impedendo il danneggiamento dei processi critici da parte di quelli non validi.
- Unificazione, aggiornamento, eliminazione: Delta Lake supporta le operazioni DML (Data Manipulation Language), tra cui l’unificazione, l’aggiornamento e l’eliminazione dei comandi per compliance e casi d’uso complessi come streaming degli upsert, change-data capture, SCD (slowly-changing-dimension) e altro ancora.
Confronto tra Delta Lake, data lake e data warehouse
Delta Lake associa i vantaggi dei data lake e dei data warehouse per creare un data lakehouse scalabile a costi contenuti. Scopri le differenze tra Delta Lake, data lakehouse e data warehouse.
Delta Lake
Delta Lake, un’evoluzione dello storage dati, preserva l’integrità dei dati originali senza sacrificare le prestazioni e l’agilità richieste per le applicazioni di analisi in tempo reale, intelligenza artificiale (AI) e machine learning (ML).
Data lake
Un data lake è un enorme raggruppamento di dati non elaborati in più formati. Il volume e la varietà delle informazioni in un data lake possono complicare l’analisi e, senza auditing o governance, la qualità e l’uniformità rischiando di diventare inaffidabili.
Data lakehouse
Un data lakehouse associa la flessibilità e la scalabilità di un data lake alle caratteristiche di struttura e gestione di un data warehouse in una piattaforma semplice, aperta.
Data warehouse
Un data warehouse acquisisce informazioni da diverse origini, le riformatta e le organizza in un grande volume consolidato di dati strutturati, ottimizzati per l’analisi e la generazione di report. Il software proprietario e l’incapacità di archiviare dati non strutturati può limitarne l’utilità.
HPE e Delta Lake
- La piattaforma edge to cloud HPE GreenLake è costruita a partire dal software HPE Ezmeral e ottimizzata per l’analisi Apache Spark basata su Kubernetes con integrazione di Delta Lake.
- HPE Ezmeral e Apache Spark 3.0 con Delta Lake offrono dati affidabili e uniformi per le applicazioni di business analytics e machine learning. L’orchestrazione dei cluster basata su Kubernetes consente la scalabilità dinamica per i carichi di lavoro a uso intensivo di dati.
- HPE Ezmeral Runtime offre gestione delle applicazioni e dei cluster leader di settore per le infrastrutture fisiche e basate su cloud.
- HPE Ezmeral Data Fabric ottimizza la gestione dei dati e lo storage tenant.