Data lakehouse

Cos’è il data lakehouse?

I data lakehouse associano la flessibilità dei data lake alle funzionalità strutturate dei data warehouse, offrendo una piattaforma unificata per l’archiviazione e l’analisi di dati eterogenei, strutturati e non. Un’architettura di data lakehouse ibrida sfrutta gli ambienti on-premise e cloud per l’elaborazione e lo storage dei dati.

Come sono cambiati i data warehouse negli ultimi decenni?

I data warehouse tradizionali erano realizzati per i dati strutturati on-premise e supportavano principalmente le funzionalità di business intelligence (BI), come la generazione di report e i dashboard. I data warehouse moderni gestiscono una gamma più ampia di formati di dati, supportano le piattaforme cloud per lo storage e l’elaborazione e integrano tool di data science e algoritmi di machine learning per estrarre informazioni più approfondite.

I data warehouse si sono evoluti da repository strutturati in silo a piattaforme flessibili basate su cloud che supportano l’analisi avanzata di formati di dati eterogenei. Sempre più automatizzati e facili da usare, mettono al centro la sicurezza e la governance dei dati. 

Soluzioni HPE, prodotti o servizi correlati

Cosa sono i data lake?

I data lake sono architetture appositamente realizzate, progettate per gestire e archiviare enormi quantità di dati non strutturati e semi-strutturati a partire da applicazioni, sistemi e dispositivi aziendali eterogenei nell’intera impresa. A differenza dei database tradizionali, possono archiviare diversi tipi di dati come testi, immagini e video non elaborati, utilizzando un’API file e un’infrastruttura di storage a costi contenuti.

La scalabilità e l’accessibilità rendono i data lake vantaggiosi nell’analisi avanzata, soprattutto per gli algoritmi di machine learning e intelligenza artificiale. L’uso di formati di file aperti migliora l’interoperabilità, ma è fondamentale tenere a mente che sono intrinsecamente privi di meccanismi robusti per l'integrità e la governance dei dati.

Senza una gestione corretta, rischiano di accumulare dati ridondanti e disorganizzati, generando il problema dei cosiddetti "data swamp", o paludi di dati. Districarsi in queste paludi complica l’estrazione di informazioni significative. La mancanza di governance integrata richiede una supervisione vigile da parte degli utenti per mantenere l’integrità dei dati, i metadati e i controlli di accesso.

Nonostante tali problematiche, i data lake rimangono utili nelle architetture contemporanee, in quanto offrono una soluzione a costi contenuti per l'elaborazione di dati eterogenei. Le organizzazioni spesso implementano ulteriori tecnologie come la catalogazione dei dati e la gestione dei metadati per evitare i data swamp, garantendo la presenza di dati strutturati, affidabili e adatti all’analisi all’interno del data lake.

Quali sono le differenze principali tra data lake, data warehouse e data lakehouse?

I data warehouse, i data lake e i data lakehouse rappresentano architetture di gestione dei dati distinte, ciascuna adatta a specifiche problematiche aziendali.

Struttura e schema dei dati

  • I data lake archiviano i dati nel loro formato originale, indipendentemente dalla struttura.
  • I data warehouse sono progettati per dati strutturati con uno schema predefinito.
  • I data lakehouse possono gestire sia dati strutturati sia non strutturati con notevole flessibilità, incorporando al contempo uno schema per una migliore gestione.

 

Elaborazione dei dati

  • I data lake archiviano dati non elaborati.
  • I data warehouse archiviano dati pre-elaborati, puliti e trasformati prima dell’archiviazione, in modo che siano pronti per l’analisi.
  • I data lakehouse possono archiviare dati non elaborati, ma consentono anche l’elaborazione all’interno dell’ambiente del lakehouse.

Focus e casi d’uso

  • I data lake sono ideali per l’analisi esplorativa, grazie alla capacità di portare alla luce i modelli nascosti in grandi set di dati e di supportare l’analisi avanzata come il machine learning.
  • I data warehouse sono costruiti per la business intelligence (BI) e la generazione di report. Permettono l’analisi dei dati storici per individuare tendenze e informazioni a supporto del processo decisionale strategico.
  • I data lakehouse combinano la potenza dell’analisi avanzata su tutti i tipi di dati con un certo livello di governance a fini di BI.

Costi e scalabilità 

  • I data lake presentano generalmente costi più contenuti, poiché archiviano i dati in formati non elaborati con soluzioni per lo storage meno dispendiose. Sono anche estremamente scalabili per adattarsi a volumi di dati crescenti.
  • I data warehouse possono essere più costosi a causa dei requisiti dell’elaborazione e dello storage strutturato e presentare una scalabilità limitata rispetto ai data lake.
  • I data lakehouse offrono un equilibrio tra costi e scalabilità. Possono risultare economicamente vantaggiosi per lo storage di dati non elaborati, ma comportare costi di elaborazione aggiuntivi all’interno dell’ambiente del lakehouse.

In che modo i data lakehouse evitano il problema dei data swamp?

I data lake offrono una soluzione di storage flessibile per enormi quantità di dati, ma senza una gestione corretta possono trasformarsi in “data swamp”, ovvero repository disorganizzati e di bassa qualità, difficili da analizzare. I data lakehouse affrontano proprio questo problema, incorporando funzionalità dei data warehouse per evitare la formazione di data swamp, come descritto di seguito.

Governance dei dati

  • I data lakehouse implementano prassi di governance dei dati come la definizione della proprietà, i controlli degli accessi e gli standard di qualità, garantendo uniformità, accuratezza e tracciabilità ed evitando l’accumulo di dati irrilevanti o inaffidabili nel data lake. I data warehouse adottano già queste prassi.
  • I data lake, d’altro canto, spesso mancano di una solida governance, il che determina l’acquisizione incontrollata di dati e alla potenziale duplicazione degli errori.

 

Schema dei dati

  • I data lakehouse consentono la definizione di alcuni schemi, contribuendo in una certa misura all’organizzazione dei dati. Questo semplifica l’individuazione e il recupero per l’analisi rispetto ai data lake completamente non strutturati. Sebbene non impongano la struttura rigida di un data warehouse, costituiscono un punto di equilibrio per una migliore gestione dei dati.
  • I data lake archiviano i dati nel formato originale, che può essere non strutturato o semi-strutturato. Nonostante la flessibilità che ne deriva, questa caratteristica incrementa la complessità di analisi ed esplorazione.

 

Gestione del ciclo di vita dei dati

  • I data lakehouse facilitano la gestione del ciclo di vita dei dati, che include processi per l’identificazione, la classificazione e potenzialmente l’archiviazione o l’eliminazione in base a regole predefinite. Questo contribuisce a evitare l’accumulo di dati irrilevanti o obsoleti nel lakehouse, mantenendolo snello ed efficiente.
  • I data lake spesso mancano di un’adeguata gestione del ciclo di vita dei dati, con una conseguente proliferazione e difficoltà di individuazione delle informazioni preziose tra quelle irrilevanti.

 

Tool per la qualità dei dati

  • I data lakehouse possono integrarsi con i tool di qualità dei dati a fini di pulizia e convalida durante l’acquisizione o all’interno dell’ambiente di lakehouse, garantendo l’accuratezza e l’affidabilità di quanto archiviato nel data lake.
  • I data lake possono richiedere processi di pulizia dei dati separati prima dell’analisi, aggiungendo complessità e potenziali ritardi nell’ottenimento delle informazioni.

Quali sono i vantaggi dei data lakehouse?

I data lakehouse offrono diversi vantaggi che li rendono un’opzione interessante per le organizzazioni interessate a sfruttare tutti i dati in loro possesso per migliorare il processo decisionale e l’analisi. Ecco alcuni dei vantaggi principali.

 

  • Piattaforma dati unificata: i data lakehouse combinano i punti di forza dei data lake e dei data warehouse, fornendo un’unica piattaforma per archiviare e gestire tutti i dati, indipendentemente dal formato (strutturato, semi-strutturato, non strutturato). Questo elimina la necessità di sistemi separati per tipi di dati differenti, semplificandone la gestione e rendendoli facilmente accessibili per diversi progetti di analisi.
  • Governance dei dati ottimizzata: i data lakehouse incorporano le funzionalità di governance dei dati dei data warehouse. Questo consente di definire la proprietà, implementare i controlli degli accessi e stabilire standard di qualità, garantendo coerenza, accuratezza e tracciabilità ed impedendo inoltre la formazione di data swamp, vale a dire repository di dati disorganizzati e di bassa qualità difficili da analizzare.
  • Flessibilità e scalabilità: i data lakehouse ereditano la flessibilità dei data lake. Consentono di archiviare tutti i dati così come sono, senza preoccuparsi di strutture predefinite. Condividono anche la scalabilità dei data lake, scalando facilmente in orizzontale e verticale per adattarsi a volumi crescenti.
  • Supporto per le analisi avanzate: archiviando dati non elaborati, i data lakehouse forniscono una base per diverse esigenze di analisi. Questi dati sono preziosi per l’addestramento dei modelli di machine learning e per l’esecuzione di altre forme di analisi avanzata, come il data mining e l’intelligenza artificiale.
  • Costi contenuti: i data lakehouse risultano generalmente più vantaggiosi dei data warehouse tradizionali dal punto di vista economico. Spesso utilizzano soluzioni per lo storage a basso costo per i dati non elaborati e possono implementare la gestione del ciclo di vita per eliminare quelli non necessari, riducendo i requisiti di storage.
  • Tempi di acquisizione delle informazioni più rapidi: disporre di tutti i dati in un’unica posizione accessibile ne semplifica l’individuazione e il recupero. Questo consente a data analyst e data scientist di dedicare meno tempo alla ricerca e più tempo all’estrazione di informazioni preziose.
  • Processo decisionale ottimizzato: fornendo una vista olistica dei dati, i data lakehouse supportano il processo decisionale data-driven. Consentono di combinare le informazioni da diverse origini dati in modo da ottenere una comprensione approfondita di clienti, operazioni e tendenze di mercato per decisioni aziendali più consapevoli.

Quali sono gli elementi di un data lakehouse?

L’architettura di data lakehouse è un metodo ibrido di gestione dei dati che associa la libertà dei data lake alle qualità strutturate dei data warehouse. Presenta i due livelli importanti che seguono.

 

Piattaforma lakehouse

  • Accesso diretto alle query: il livello di elaborazione consente di eseguire query direttamente sui dati archiviati nel data lake, senza la necessità di caricamento in un data warehouse o conversione in un formato proprietario. Le applicazioni di BI, l’intelligenza artificiale e le tecnologie di machine learning possono quindi sfruttare meglio i dati grazie all’accesso diretto.
  • Agnosticismo dei tool: qualsiasi motore di elaborazione può leggere i dati nel formato originale, offrendo ai diversi tool e sistemi la possibilità di esaminare i dati preparati. Questa adattabilità contribuisce al miglioramento delle prestazioni di elaborazione e analisi, oltre che al contenimento dei costi.

 

Livello di elaborazione

  • Accesso diretto alle query: il livello di elaborazione consente di eseguire query direttamente sui dati archiviati nel data lake, senza la necessità di caricamento in un data warehouse o conversione in un formato proprietario. Le applicazioni di BI, l’intelligenza artificiale e le tecnologie di machine learning possono quindi sfruttare meglio i dati grazie all’accesso diretto.
  • Agnosticismo dei tool: qualsiasi motore di elaborazione può leggere i dati nel formato originale, offrendo ai diversi tool e sistemi la possibilità di esaminare i dati preparati. Questa adattabilità contribuisce al miglioramento delle prestazioni di elaborazione e analisi, oltre che al contenimento dei costi.

 

Principi chiave: compliance ACID per le transazioni dei database

  • Atomicità: garantisce che le transazioni siano interamente concluse o non vengano prese in carico del tutto. In caso di arresto di un processo, si evita la perdita o il danneggiamento dei dati.
  • Coerenza: garantisce transazioni dai risultati prevedibili e coerenti, mantenendo la validità dei dati in base ai criteri stabiliti e conservandone l'integrità complessiva.
  • Isolamento: garantisce che le transazioni in corso non siano modificate fino al completamento, consentendo a più parti di leggere e scrivere simultaneamente senza interruzioni.
  • Durabilità: garantisce che le modifiche indotte dalle transazioni siano conservate anche in caso di guasti del sistema, consentendone la memorizzazione persistente.

 

Questa progettazione bilancia i costi contenuti di un data lake con la flessibilità necessaria per mettere a disposizione di più sistemi dati pronti per l’analisi. Consente a numerose parti di visualizzare e scrivere i dati contemporaneamente, rispettando al contempo solide regole transazionali e rappresenta quindi una soluzione versatile e affidabile per le attuali problematiche di gestione dei dati.

L’AI e i data lakehouse

I data lakehouse e l’AI costituiscono una potente combinazione di grande valore per le organizzazioni.

 

I vantaggi dei data lakehouse per l’AI

  • Accesso a tutti i dati: i data lakehouse archiviano tutti i tipi di dati, strutturati, semi-strutturati e non strutturati. Questo fornisce ai modelli AI un set più ricco e completo per l’addestramento, determinando potenzialmente prestazioni migliori e informazioni più precise.
  • Migliore qualità dei dati: le funzionalità di governance dei dati nei data lakehouse contribuiscono a garantirne la coerenza e l’accuratezza. Tali caratteristiche sono essenziali per addestrare modelli AI affidabili, poiché i dati di scarsa qualità possono determinare risultati distorti o imprecisi.
  • Flessibilità per la sperimentazione: i data lakehouse supportano l’archiviazione di dati non elaborati. Questo consente ai data scientist di sperimentare tecniche di preparazione e approcci di feature engineering di diverso tipo per ottimizzare le prestazioni dei modelli AI.
  • Scalabilità per la crescita dei dati: con l’evoluzione dei modelli AI e la necessità di una maggiore quantità di dati per l’addestramento e il riaddestramento, i data lakehouse possono gestire facilmente i volumi in crescita.
  • Costi contenuti: i data lakehouse offrono un modo economicamente vantaggioso per archiviare grandi quantità di dati rispetto ai data warehouse tradizionali. Questo consente alle organizzazioni di sperimentare con diversi modelli AI senza preoccuparsi di costi di storage eccessivi.

 

Come i data lakehouse facilitano i progetti AI

  • Preparazione dei dati: i data lakehouse possono integrarsi con i tool di pulizia e trasformazione dei dati, semplificando il processo di preparazione per i modelli AI.
  • Sviluppo e addestramento dei modelli: la capacità di archiviare e accedere a grandi set di dati all’interno dell’ambiente di data lakehouse facilita i cicli di sviluppo e addestramento efficienti dei modelli.
  • Gestione dei modelli di machine learning: i data lakehouse possono fungere da repository centrale per la gestione di diverse versioni dei modelli di machine learning e dei relativi dati.
  • Operazionalizzazione dei modelli AI: una volta completato l’addestramento, i data lakehouse possono fornire la pipeline di dati per la distribuzione e l’esecuzione dei modelli AI in produzione.

 

Nel complesso, i data lakehouse svolgono un ruolo fondamentale nel ciclo di vita dell’AI, fornendo una piattaforma sicura, scalabile e ben amministrata per lo storage, la gestione e l’accesso ai dati. In questo modo le organizzazioni possono costruire, addestrare e distribuire potenti modelli AI per migliorare il processo decisionale e l’innovazione.

Soluzioni per i data lakehouse HPE

I data lakehouse rivoluzionano la gestione dei dati, combinando la flessibilità dei data lake con la governance dei data warehouse. HPE Ezmeral Data Fabric fa un ulteriore passo avanti, fornendo un data lakehouse unificato che si integra perfettamente con l’infrastruttura dati esistente, sia on-premise sia nel cloud.

 

  • Unificazione e semplificazione: HPE Ezmeral Data Fabric elimina i silo e gestisce tutti i dati, strutturati, semi-strutturati e non strutturati, in un unico luogo. Semplifica la governance dei dati con tool integrati, garantendone la qualità e la sicurezza per analisi affidabili.
  • Supporto di AI e analisi: HPE Ezmeral Data Fabric fornisce una base robusta per le analisi avanzate e le iniziative AI. Offre un semplice accesso a tutti i dati per l’addestramento dei modelli di machine learning, l’esplorazione approfondita e la promozione dell’innovazione data-driven.
  • Apertura e flessibilità: sviluppato a partire da una base open source, Ezmeral Data Fabric evita la dipendenza da un fornitore e offre la flessibilità necessaria per soddisfare le esigenze specifiche in materia di dati. Una soluzione on-premise, un data lakehouse basato su cloud o un approccio ibrido: Ezmeral Data Fabric si adatta a qualsiasi ambiente.
  • Scalabilità per la crescita: lo storage e l’elaborazione dei dati possono essere scalati con facilità parallelamente all’aumento dei volumi. Ezmeral Data Fabric gestisce agevolmente i set di dati in crescita, garantendo la potenza necessaria per analizzare tutte le informazioni.
  • Costi contenuti: i dati vengono archiviati in modo efficiente grazie alla capacità di integrazione di Ezmeral Data Fabric con le soluzioni per lo storage a costi contenuti. Questo consente di ottimizzare la spesa senza scendere a compromessi sull’accessibilità o sulla qualità dei dati.

 

HPE Ezmeral Data Fabric consente ai clienti di:

  • trasformare i dati non elaborati in informazioni fruibili
  • prendere decisioni data-driven con fiducia
  • acquisire un vantaggio competitivo attraverso l’analisi avanzata e l’AI.

 

Disponibile sulla piattaforma edge to cloud HPE GreenLake, questa esperienza unificata consente ai team di connettersi in modo sicuro ai dati dove risiedono attualmente, senza stravolgere i modelli di accesso esistenti. Include una piattaforma data lakehouse scalabile verticalmente, ottimizzata per Apache Spark e distribuita on-premise. I data scientist possono sfruttare una piattaforma di analisi unificata ed elastica per i dati e le applicazioni on-premise, all’edge e in tutti i cloud pubblici, accelerando i flussi di lavoro di AI e ML.