Data lakehouse
Cos’è il data lakehouse?
Un data lakehouse è un’architettura di gestione dei dati aperta che combina i vantaggi in termini di flessibilità e scalabilità di un data lake con le strutture e le funzionalità di gestione dei dati di un data warehouse.
Come sono cambiati i data warehouse negli ultimi decenni?
Le organizzazioni utilizzano i data warehouse, noti anche come data warehouse aziendali (EDW), da decenni per archiviare e gestire i dati di cui hanno bisogno per ricavare informazioni sul business. Poiché i tipi, le origini e le quantità di dati generati si sono moltiplicati nel corso degli anni, le architetture data warehouse tradizionali non sono state in grado di mantenere completamente il passo con la velocità, la varietà e i volumi di dati aziendali creati ogni giorno all’interno delle aziende. E, mentre le aziende adottano in misura sempre maggiore le tecnologie di intelligenza artificiale (IA) e machine learning (ML), gli algoritmi utilizzati da questi tool richiedevano un accesso diretto ai dati.
Cosa sono i data lake?
I data lake sono architetture utilizzate per archiviare le enormi quantità di dati non strutturati e semistrutturati raccolti dai diversi sistemi, dispositivi e applicazioni aziendali dell’impresa. I data lake utilizzano generalmente un’infrastruttura di storage a costi contenuti con un’interfaccia di programmazione delle applicazioni (API) che tiene i dati in formati file generici e aperti. Questo significa che i data lake sono utili per l’archiviazione dei dati su vasta scala e per la loro condivisione con gli algoritmi di IA e ML, ma non soddisfano i requisiti di qualità o governance dei dati. Con l’aggiunta ai data lake di dati duplicati, irrilevanti e non organizzati, a causa di una scarsa organizzazione o gestione, questi possono trasformarsi in data swamp che rendono difficile l’estrazione di informazioni significative dai dati che contengono.
In che modo i data lakehouse evitano il problema delle dei data swamp?
La flessibilità e la scalabilità dei data lakehouse, abbinata alle loro strutture e funzionalità di gestione, forniscono ai team di data science l’agilità necessaria per utilizzare i dati senza dover accedere a diversi sistemi. I data lakehouse garantiscono inoltre che i data scientist dispongano dei dati più completi e aggiornati disponibili per i progetti di business analytics, IA e ML.
Quali sono i vantaggi dei data lakehouse?
L’architettura dei data lakehouse offre diversi vantaggi:
1. Elimina le semplici operazioni di estrazione, trasferimento e caricamento (ETL) dato che i motori di query sono collegati direttamente al data lake.
2. Riduce la ridondanza dei dati con un unico tool utilizzato per elaborare i dati, anziché gestire i dati su più piattaforme con diversi tool.
3. Consente il collegamento diretto a diversi tool di BI e analisi.
4. Semplifica la governance dei dati poiché i dati sensibili non devono essere spostati da un pool dati a un altro e possono essere gestiti da un unico luogo.
Consente di ridurre i costi perché i dati possono essere gestiti in un’unica posizione con lo storage a oggetti.
Qual è la differenza tra data lakehouse, data warehouse e data lake?
Data warehouse
Un data warehouse è una grande raccolta di dati aziendali aggregati da diverse origini in un unico data store omogeneo. Queste piattaforme sono specificamente progettate per l’esecuzione di analisi su grandi quantità di dati strutturati. Un sistema di data warehouse estrae regolarmente i dati da diversi sistemi di Business Intelligence (BI), quindi li formatta e li importa in linea con il formato e gli standard dei dati già all’interno del data warehouse, Questo consente l’archiviazione dei dati in file o cartelle organizzati, affinché siano subito disponibili per la generazione di report e l’analisi dati.
Data lake
I data lake archiviano qualsiasi tipo di dati non elaborati, strutturati e non strutturati, da tutte le origini dati aziendali, nel loro formato nativo e su vasta scala. I dati vengono aggiunti al data lake così come sono, questo significa che non vengono eseguite operazioni di riformattazione per l’allineamento con gli altri dati già nel sistema. I data lake ricoprono un ruolo fondamentale nel rendere i dati disponibili ai sistemi di IA e ML, e di analisi dei Big Data.
Data lakehouse
Il data lakehouse è una nuova architettura aperta che combina i vantaggi in termini di flessibilità e scalabilità di un data lake con strutture e funzionalità di gestione dei dati analoghe a quelle di un data warehouse. Questa combinazione di funzioni supporta l’agilità per i team di data science, che sono in grado di utilizzare i dati senza dover accedere a diversi sistemi. I data lakehouse garantiscono inoltre che i data scientist dispongano dei dati più completi e aggiornati disponibili.
Quali sono gli elementi di un data lakehouse?
In genere, l’architettura di un data lakehouse è costituita da due livelli principali. La piattaforma lakehouse gestisce l’acquisizione dei dati nel livello di storage (vale a dire il data lake). Il livello di elaborazione è quindi in grado di eseguire le query dei dati direttamente nel livello di storage con un’ampia gamma di tool senza dover caricare i dati in un data warehouse o convertirli in un formato proprietario. I dati possono quindi essere utilizzati da applicazioni di BI e tool di IA e ML.
Questa architettura offre i costi contenuti di un data lake, ma poiché i dati sono leggibili da qualsiasi tipo di motore di elaborazione, le organizzazioni hanno la flessibilità di mettere i dati preparati a disposizione dell’analisi da parte di un’ampia gamma di sistemi. In questo modo, è possibile eseguire elaborazione e analisi con prestazioni superiori e costi inferiori.
L’architettura consente anche a diverse parti di leggere e scrivere i dati contemporaneamente all’interno del sistema dato che supporta le transazioni dei database conformi ai principi ACID (atomicità, uniformità, isolamento e durabilità), descritti in dettaglio di seguito:
Atomicità significa che, durante l’elaborazione delle transazioni, l’intera transazione viene eseguita correttamente o nessuna sua parte viene eseguita. Questo consente di evitare la perdita o il danneggiamento dei dati in caso di interruzione di un processo.
Uniformità garantisce che le transazioni avvengano in modalità prevedibili e coerenti. Garantisce che tutti i dati siano validi in conformità a regole predefinite, mantenendone l’integrità.
Isolamento garantisce che nessuna transazione possa essere influenzata da qualsiasi altra transazione nel sistema fino a quando non è stata completata. Questo consente a diverse parti di scrivere e leggere dallo stesso sistema contemporaneamente senza interferenza reciproca.
Durabilità garantisce che le modifiche apportate ai dati in un sistema siano mantenute una volta completata la transazione, anche in caso di guasto del sistema. Qualsiasi modifica risultante da una transazione viene archiviata in modo permanente.
Soluzioni per i data lakehouse HPE
HPE Ezmeral Unified Analytics è la prima soluzione cloud native a offrire le analisi Apache Spark basate su Kubernetes e la semplicità dei data lakehouse unificati con Delta Lake on-premise. Il servizio modernizza i dati e le applicazioni legacy per ottimizzare i carichi di lavoro a uso intensivo di dati dall’edge al cloud, al fine di fornire la scalabilità e l’elasticità necessarie per le analisi avanzate. Progettato fin dall’inizio per essere aperto e ibrido, il suo stack totalmente open source libera le organizzazioni dalla dipendenza da un fornitore per la piattaforma dati.
Anziché richiedere che tutti i dati dell’organizzazione risiedano in un cloud pubblico, HPE Ezmeral Unified Analytics è ottimizzato per implementazioni on-premise e ibride, utilizzando software open source per garantire la portabilità dei dati secondo necessità. I suoi livelli di flessibilità e scalabilità sono adeguati per accogliere i grandi set di dati o i data lakehouse delle imprese, in modo che i clienti abbiano a disposizione l'elasticità necessaria per l'analisi avanzata, ovunque.
Disponibile sulla piattaforma edge to cloud HPE GreenLake, questa esperienza dati unificata consente ai team di connettersi in modo sicuro ai dati dove risiedono attualmente, senza stravolgere i modelli di accesso ai dati esistenti. Include una piattaforma data lakehouse scalabile verticalmente, ottimizzata per Apache Spark e distribuita on-premise. I data scientist possono sfruttare una piattaforma di analisi unificata ed elastica per i dati e le applicazioni on-premise, all’edge e in tutti i cloud pubblici, con un’accelerazione dei flussi di lavoro di IA e ML.