Data lakehouse

Cos’è il data lakehouse?

Un data lakehouse è un’architettura di gestione dei dati ibrida che combina i vantaggi in termini di flessibilità e scalabilità di un data lake con le strutture e le funzionalità di gestione dei dati di un data warehouse.

Come sono cambiati i data warehouse negli ultimi decenni?

Le organizzazioni utilizzano i data warehouse, noti anche come data warehouse aziendali (EDW), da decenni per archiviare e gestire i dati di cui hanno bisogno per ricavare informazioni sul business. Poiché i tipi, le origini e le quantità di dati generati si sono moltiplicati nel corso degli anni, le architetture data warehouse tradizionali non sono state in grado di mantenere completamente il passo con la velocità, la varietà e i volumi di dati aziendali creati ogni giorno all’interno delle aziende. E, mentre le aziende adottano in misura sempre maggiore le tecnologie di intelligenza artificiale (AI) e machine learning (ML), gli algoritmi utilizzati da questi tool richiedevano un accesso diretto ai dati.

Soluzioni, prodotti o servizi HPE correlati

Cosa sono i data lake?

I data lake sono architetture utilizzate per archiviare le enormi quantità di dati non strutturati e semistrutturati raccolti dai diversi sistemi, dispositivi e applicazioni aziendali dell’impresa. I data lake utilizzano generalmente un’infrastruttura di storage a costi contenuti con un’interfaccia di programmazione delle applicazioni (API) che tiene i dati in formati file generici e aperti. Questo significa che i data lake sono utili per l’archiviazione dei dati su vasta scala e per la loro condivisione con gli algoritmi di AI e ML, ma non soddisfano i requisiti di qualità o governance dei dati. Con l’aggiunta ai data lake di dati duplicati, irrilevanti e non organizzati, a causa di una scarsa organizzazione o gestione, questi possono trasformarsi in data swamp che rendono difficile l’estrazione di informazioni significative dai dati che contengono.

Qual è la differenza tra data lakehouse, data warehouse e data lake?

Data warehouse

Un data warehouse è una grande raccolta di dati aziendali aggregati da diverse origini in un unico data store omogeneo. Queste piattaforme sono specificamente progettate per l’esecuzione di analisi su grandi quantità di dati strutturati. Un sistema di data warehouse estrae regolarmente i dati da diversi sistemi di Business Intelligence (BI), quindi li formatta e li importa in linea con il formato e gli standard dei dati già all’interno del data warehouse, Questo consente l’archiviazione dei dati in file o cartelle organizzati, affinché siano subito disponibili per la generazione di report e l’analisi dati. 

 

Data lake

I data lake archiviano qualsiasi tipo di dati non elaborati, strutturati e non strutturati, da tutte le origini dati aziendali, nel loro formato nativo e su vasta scala. I dati vengono aggiunti al data lake così come sono, questo significa che non vengono eseguite operazioni di riformattazione per l’allineamento con gli altri dati già nel sistema. I data lake ricoprono un ruolo fondamentale nel rendere i dati disponibili ai sistemi di AI e ML, e di analisi dei Big Data.

Data lakehouse

Il data lakehouse è una nuova architettura aperta che combina i vantaggi in termini di flessibilità e scalabilità di un data lake con strutture e funzionalità di gestione dei dati analoghe a quelle di un data warehouse. Questa combinazione di funzioni supporta l’agilità per i team di data science, che sono in grado di utilizzare i dati senza dover accedere a diversi sistemi. I data lakehouse garantiscono inoltre che i data scientist dispongano dei dati più completi e aggiornati disponibili.

In che modo i data lakehouse evitano il problema dei data swamp?

La flessibilità e la scalabilità dei data lakehouse, abbinata alle loro strutture e funzionalità di gestione, forniscono ai team di data science l’agilità necessaria per utilizzare i dati senza dover accedere a diversi sistemi. I data lakehouse garantiscono inoltre che i data scientist dispongano dei dati più completi e aggiornati disponibili per i progetti di business analytics, AI e ML.

Quali sono i vantaggi dei data lakehouse?

L’architettura del data lakehouse offre maggiore flessibilità:

1.       Eliminando le semplici operazioni di estrazione, trasferimento e caricamento (ETL) dato che i motori di query sono collegati direttamente al data lake.

2.       Riducendo la ridondanza dei dati con un unico tool utilizzato per elaborare i dati, anziché gestirli su più piattaforme con diversi tool.

3.       Consentendo il collegamento diretto a diversi tool di BI e analisi.

4.       Semplificando la governance dei dati poiché i dati sensibili non devono essere spostati da un pool dati a un altro e possono essere gestiti da un unico luogo.

5.       Riducendo i costi perché i dati possono essere gestiti in un’unica posizione con lo storage a oggetti.

Quali sono gli elementi di un data lakehouse?

In genere, l’architettura di un data lakehouse è costituita da due livelli principali. La piattaforma lakehouse gestisce l’acquisizione dei dati nel livello di storage (vale a dire il data lake). Il livello di elaborazione è quindi in grado di eseguire le query dei dati direttamente nel livello di storage con un’ampia gamma di tool senza dover caricare i dati in un data warehouse o convertirli in un formato proprietario. I dati possono quindi essere utilizzati da applicazioni di BI e tool di AI e ML.

Questa architettura offre i costi contenuti di un data lake, ma poiché i dati sono leggibili da qualsiasi tipo di motore di elaborazione, le organizzazioni hanno la flessibilità di mettere i dati preparati a disposizione dell’analisi da parte di un’ampia gamma di sistemi. In questo modo, è possibile eseguire elaborazione e analisi con prestazioni superiori e costi inferiori.

L’architettura consente anche a diverse parti di leggere e scrivere i dati contemporaneamente all’interno del sistema dato che supporta le transazioni dei database conformi ai principi ACID (atomicità, uniformità, isolamento e durabilità), descritti in dettaglio di seguito:

Atomicità significa che, durante l’elaborazione delle transazioni, l’intera transazione viene eseguita correttamente o nessuna sua parte viene eseguita. Questo consente di evitare la perdita o il danneggiamento dei dati in caso di interruzione di un processo.

Uniformità garantisce che le transazioni avvengano in modalità prevedibili e coerenti. Garantisce che tutti i dati siano validi in conformità a regole predefinite, mantenendone l’integrità.

Isolamento garantisce che nessuna transazione possa essere influenzata da qualsiasi altra transazione nel sistema fino a quando non è stata completata. Questo consente a diverse parti di scrivere e leggere dallo stesso sistema contemporaneamente senza interferenza reciproca.

Durabilità garantisce che le modifiche apportate ai dati in un sistema siano mantenute una volta completata la transazione, anche in caso di guasto del sistema. Qualsiasi modifica risultante da una transazione viene archiviata in modo permanente.

Soluzioni per i data lakehouse HPE

HPE Ezmeral Unified Analytics è la prima soluzione cloud native a offrire le analisi Apache Spark basate su Kubernetes e la semplicità dei data lakehouse unificati con Delta Lake on-premise. Il servizio modernizza i dati e le applicazioni legacy per ottimizzare i carichi di lavoro a uso intensivo di dati dall’edge al cloud, al fine di fornire la scalabilità e l’elasticità necessarie per le analisi avanzate. Progettato fin dall’inizio per essere aperto e ibrido, il suo stack totalmente open source libera le organizzazioni dalla dipendenza da un fornitore per la piattaforma dati.

Anziché richiedere che tutti i dati dell’organizzazione risiedano in un cloud pubblico, HPE Ezmeral Unified Analytics è ottimizzato per implementazioni on-premise e ibride, utilizzando software open source per garantire la portabilità dei dati secondo necessità. I suoi livelli di flessibilità e scalabilità sono adeguati per accogliere i grandi set di dati o i data lakehouse delle imprese, in modo che i clienti abbiano a disposizione l'elasticità necessaria per l'analisi avanzata, ovunque.

Disponibile sulla piattaforma edge to cloud HPE GreenLake, questa esperienza dati unificata consente ai team di connettersi in modo sicuro ai dati dove risiedono attualmente, senza stravolgere i modelli di accesso ai dati esistenti. Include una piattaforma data lakehouse scalabile verticalmente, ottimizzata per Apache Spark e distribuita on-premise. I data scientist possono sfruttare una piattaforma di analisi unificata ed elastica per i dati e le applicazioni on-premise, all’edge e in tutti i cloud pubblici, con un’accelerazione dei flussi di lavoro di AI e ML.