Data lake
Cos’è un data lake?
Il data lake è un repository centralizzato nell’architettura cloud che contiene grandi quantità di dati non elaborati nel loro formato nativo. A differenza di un data warehouse o di un silo, usa un’architettura piatta con storage a oggetti per i metadati dei file.
Come sono stati sviluppati i data lake?
Il termine "data lake" è nato nel 2015, ma il concetto esiste da più di un decennio. I data lake rispondono alle esigenze di repository di dati scalabili in grado di archiviare numerosi tipi di file e origini da analizzare in un secondo tempo.
Un data lake può essere considerato un repository centralizzato in grado di contenere petabyte di dati, ma nel loro formato non elaborato e nativo. Rispetto ai data warehouse gerarchici, che conservano i dati in file e cartelle, i data lake utilizzano un’architettura piatta con storage basato su oggetti. L’utilizzo di tag e identificatori di metadati consente alle operazioni relative ai Big Data di individuare e recuperare più facilmente i dati in tutte le regioni con prestazioni migliori, in modo che un maggior numero di applicazioni sfruttarne il formato.
Perché le organizzazioni scelgono i data lake?
I data lake consentono alle imprese di trasformare i dati non elaborati in dati strutturati pronti per l'analisi basata su SQL, la data science e il machine learning, ma con una latenza inferiore. Tutti i tipi di dati vengono raccolti e conservati a tempo indeterminato con maggiore facilità, tra cui immagini in streaming, video, file binari e altro. Dal momento che i data lake sono sensibili a più tipi di file e costituiscono un "porto sicuro" per i nuovi dati, risultano anche più facili da mantenere aggiornati.
Con questo tipo di flessibilità, consentono agli utenti con competenze, lingue e contesti geoculturali diversificati di eseguire le attività necessarie. Quando contrapposti con i data warehouse e i silo che hanno di fatto sostituito, la flessibilità che infondono nelle applicazioni di Big Data e machine learning è sempre più evidente.
Data lake e data warehouse a confronto
I data lake e i data warehouse possono essere entrambi utilizzati per archiviare grandi quantità di dati, anche se presentano differenze fondamentali nelle modalità di accesso o di utilizzo: i data lake memorizzano i dati non elaborati di tutti i tipi di file, mentre i data warehouse memorizzano i dati che sono già stati strutturati e filtrati per uno scopo specifico.
I data lake hanno un formato aperto, per cui non richiedono un tipo di file specifico e non costringono gli utenti alla dipendenza da un fornitore proprietario. Un grande vantaggio rispetto ai silo o ai data warehouse risiede nella capacità di archiviare qualsiasi tipo di dati o file rispetto a un ambiente più strutturato. Un altro vantaggio è dato dal fatto che non è necessario definire subito lo scopo per il quale viene creato un data lake, mentre un data warehouse viene creato come repository per i dati filtrati che sono già stati elaborati con uno scopo specifico.
I data lake centralizzati sono preferibili ai silo e ai data warehouse, perché eliminano problemi quali la duplicazione dei dati, la ridondanza delle policy di sicurezza e la difficoltà di collaborazione multi-utente. L’utente a valle li vede come un unico punto in cui cercare o interpolare più origini di dati.
Per la loro scalabilità e la capacità di sfruttare lo storage a oggetti, i data lake sono in confronto anche molto durevoli ed economicamente vantaggiosi. E poiché l’analisi avanzata e il machine learning con i dati non strutturati rivestono un’importanza crescente per molte aziende, la capacità dei data lake di “acquisire” dati non elaborati in formati strutturati, semi-strutturati e non strutturati li rende una scelta sempre più comune per lo storage.
Capire l’architettura dei data lake
Il punto di contatto iniziale con un data lake è il tier di acquisizione. In sintesi, è il punto in cui i dati non elaborati vengono aggiunti a un data lake. Gli ambienti on-premise usano l'Hadoop File System (HDFS) Apache che effettua la migrazione di file e dati a quello che viene spesso chiamato "livello delle informazioni", in cui l'ambiente memorizza le informazioni relative all'analisi dei dati nelle cache. Indipendentemente dalla scelta dell'utente di utilizzare SQL o NoSQL per le query, le informazioni sui dati non elaborati vengono spostate al livello di elaborazione, nel quale i metadati sono convertiti in dati strutturati per l'utilizzo da parte dei responsabili e degli amministratori.
Nel livello delle operazioni unificate, la gestione e il monitoraggio dei sistemi eseguono una verifica estesa per garantire la competenza, i dati e la gestione del flusso di lavoro. Inoltre, è importante che venga effettuato un controllo continuo dei dati per individuare potenziali problemi di sicurezza e compliance. I clienti enterprise data-driven necessitano di aggiornamenti in tempo reale per individuare correttamente le tendenze e le informazioni fornite dal data lake.
Lo scopo dei data lake è l’accesso e il consumo dei dati. Senza un catalogo, l’inefficienza di un utente che profila i set di dati per verificarne l’integrità rallenta le operazioni. Allo stesso modo, la governance impone che le problematiche di compliance e sicurezza siano un “non-problema”, eliminando i dati personali dai file e che il data lake supporti la capacità di cancellare dati specifici senza interromperne il consumo.
Cosa sono le piattaforme data lake?
Quasi tutti i principali provider di servizi cloud offrono soluzioni di data lake moderne. I data center on-premise continuano ad usare Hadoop File System (HDFS) come “near-standard”. Tuttavia, dato che le aziende continuano ad adottare l’ambiente cloud, i data scientist, gli ingegneri e i professionisti IT che cercano di sfruttare le possibilità più avanzate per spostare i loro storage dati in un ambiente data lake basato su cloud hanno a disposizione diverse possibilità.
I data lake sono particolarmente utili quando si lavora con dati in streaming, come JSON. I tre casi d’uso aziendali più classici sono l’analisi o l’intelligence aziendale, la data science incentrata sul machine learning e il data serving, applicazioni ad alte prestazioni che dipendono dai dati in tempo reale.
Tutti i principali provider di servizi cloud, da Amazon Web Services (AWS) a Microsoft Azure a Google BigQuery, offrono lo storage e i servizi necessari per i data lake basati su cloud. Qualunque sia il livello di integrazione che un’organizzazione sta cercando, dal semplice backup all’integrazione completa, le opzioni non mancano.
Come si usano i data lake?
Rispetto a venti o trent’anni fa, la maggior parte delle decisioni aziendali non si basa più su dati transazionali archiviati in warehouse. Il cambio di rotta da un data warehouse strutturato alla fluidità della moderna struttura dei data lake è in risposta alle mutevoli esigenze e capacità delle applicazioni Big Data e data science attuali.
Anche se nuove applicazioni continuano ad emergere quasi quotidianamente, alcune delle più tradizionali per il moderno data lake sono incentrate sull’acquisizione e sull’analisi rapida di nuovi dati. Ad esempio, un data lake è in grado di abbinare i dati dei clienti di una piattaforma CRM con l’analisi dei social media, o una piattaforma di marketing può integrare la cronologia degli acquisti di un cliente. L’abbinamento di questi due elementi consente a un’azienda di capire meglio le potenziali aree di profitto o la causa dell’abbandono dei clienti.
Allo stesso modo, un data lake consente ai team di ricerca e sviluppo di sperimentare le ipotesi e valutare i risultati. Con un numero sempre più elevato di metodi per raccogliere dati in tempo reale, un data lake rende i metodi di storage o analisi più veloci, intuitivi e accessibili a un maggior numero di ingegneri.
HPE e i data lake
I Big Data sono il metodo con cui le aziende oggi affrontano le loro più grandi problematiche. Se Hadoop ha avuto successo nel ricavare valore dai dati non strutturati, le organizzazioni sono alla ricerca di metodi nuovi e migliori per semplificare questa operazione.
Le aziende di oggi spendono somme ingenti in analisi, dai sistemi ai data scientist alla forza lavoro IT, per implementare, gestire e mantenere la gestione dei dati basata su Hadoop on-premise. Come per qualsiasi ambiente di dati, le esigenze di capacità possono cambiare in modo esponenziale.
HPE GreenLake mette a disposizione una soluzione completa end-to-end basata su cloud davvero scalabile, che include hardware, software e HPE Services. Le organizzazioni potranno così semplificare radicalmente la loro esperienza con Hadoop, eliminando le complessità e i costi per concentrarsi sull’acquisizione delle informazioni fornite dai dati.
Realizzando l’intero potenziale dei dati, HPE GreenLake sfrutta appieno il data lake HDFS già contenuto nell’ambiente on-premise, con i vantaggi e le informazioni presenti nel cloud.