Data lake
Cos’è un data lake?

Un data lake è un repository in cui vengono acquisiti i dati nella loro forma originale, senza alterazioni. A differenza di un data warehouse o di un silo, usa un’architettura piatta con storage a oggetti per i metadati dei file e si dimostra particolarmente utile come parte di una piattaforma di gestione dei dati più ampia, integrandosi bene con i dati e i tool esistenti per analisi più avanzate. L’obiettivo è portare alla luce informazioni e tendenze, senza rinunciare a sicurezza, scalabilità e flessibilità.

Immagine astratta di una sezione di dati.
  • Definizione di data lake
  • Perché le organizzazioni scelgono i data lake?
  • Vantaggi di un data lake
  • Data lake e data warehouse a confronto
  • Cosa sono le piattaforme data lake?
  • Come si usano oggi i data lake?
  • HPE e i data lake
Definizione di data lake

Definizione di data lake

I data lake vengono usati per contenere in una posizione centrale, generalmente nel cloud, grandi quantità di dati in formato nativo, non elaborato. Utilizzando uno storage a oggetti a costi contenuti, formati aperti e la scalabilità del cloud, una serie di applicazioni possono trarre vantaggio dalla ricchezza dei dati contenuti in un data lake.

  • È possibile archiviare tutti i tipi di dati qualitativi, tra cui quelli non strutturati (spesso definiti come big data) e semi strutturati, aspetto fondamentale per gli attuali casi d’uso di machine learning e di analisi avanzata.
  • In ambito networking, per identificare baseline e anomalie, basta pensare all’infrastruttura e alla telemetria degli endpoint utilizzate come descrittori o classificatori che alimentano i modelli di AI/ML e gli algoritmi.
  • Come cliente, la tua infrastruttura e i client endpoint alimentano il data lake e il tuo fornitore di rete lo mantiene per erogare tool basati su AI che supportano l’IT per gestire la rete in modo più efficiente.
Definizione di data lake
Definizione di data lake
TOCCA L'IMMAGINE PER INGRANDIRLA
Perché le organizzazioni scelgono i data lake?

Perché le organizzazioni scelgono i data lake?

I data lake consentono alle imprese di trasformare i dati non elaborati in dati strutturati pronti per l’analisi basata su SQL, la data science e il machine learning, ma con una latenza inferiore. Tutti i tipi di dati vengono raccolti e conservati a tempo indeterminato con maggiore facilità, tra cui immagini in streaming, video, file binari e altro. Dal momento che i data lake sono sensibili a più tipi di file e costituiscono un "porto sicuro" per i nuovi dati, risultano anche più facili da mantenere aggiornati.

Con questo tipo di flessibilità, consentono agli utenti con competenze, lingue e contesti geoculturali diversificati di eseguire le attività necessarie. Quando contrapposti con i data warehouse e i silo che i data lake hanno di fatto sostituito, la flessibilità che forniscono alle applicazioni relative a Big Data e machine learning è sempre più evidente.

Vantaggi di un data lake

Vantaggi di un data lake

I vantaggi di un data lake per i clienti comprendono:

  • baseline dinamiche per le prestazioni di rete del sito senza dover impostare manualmente le SLE
  • confronti che evidenziano se siti simili riscontrano problemi basati sui rispettivi dati
  • consigli di ottimizzazione basati sui dati delle prestazioni del comportamento di un sito simile di un cliente
  • un riaddestramento costante di AI/ML con l’emergere di nuova tecnologia, infrastruttura ed endpoint.
Data lake e data warehouse a confronto

Data lake e data warehouse a confronto

I data lake e i data warehouse possono essere entrambi utilizzati per archiviare grandi quantità di dati, anche se presentano differenze fondamentali nelle modalità di accesso o di utilizzo: i data lake memorizzano i dati non elaborati di tutti i tipi di file, mentre i data warehouse memorizzano i dati che sono già stati strutturati e filtrati per uno scopo specifico.

I data lake hanno un formato aperto, per cui non richiedono un tipo di file specifico e non costringono gli utenti alla dipendenza da un fornitore proprietario. Un grande vantaggio rispetto ai silo o ai data warehouse risiede nella capacità di archiviare qualsiasi tipo di dati o file rispetto a un ambiente più strutturato. Un altro vantaggio è dato dal fatto che non è necessario definire subito lo scopo per il quale viene creato un data lake, mentre un data warehouse viene creato come repository per i dati filtrati che sono già stati elaborati con uno scopo specifico.

I data lake centralizzati sono preferibili ai silo e ai data warehouse, perché eliminano problemi quali la duplicazione dei dati, la ridondanza delle policy di sicurezza e la difficoltà di collaborazione multi-utente. L’utente a valle li vede come un unico punto in cui cercare o interpolare più origini di dati.

Per la loro scalabilità e la capacità di sfruttare lo storage a oggetti, i data lake sono in confronto anche molto durevoli ed economicamente vantaggiosi. E poiché l’analisi avanzata e il machine learning con i dati non strutturati rivestono un’importanza crescente per molte aziende, la capacità dei data lake di “acquisire” dati non elaborati in formati strutturati, semi-strutturati e non strutturati li rende una scelta sempre più comune per lo storage.

Cosa sono le piattaforme data lake?

Cosa sono le piattaforme data lake?

Quasi tutti i principali provider di servizi cloud offrono soluzioni di data lake moderne. I data center on-premise continuano ad usare Hadoop File System (HDFS) come “near-standard”. Tuttavia, dato che le aziende continuano ad adottare l’ambiente cloud, i data scientist, gli ingegneri e i professionisti IT che cercano di sfruttare le possibilità più avanzate per spostare i loro storage dati in un ambiente data lake basato su cloud hanno a disposizione diverse possibilità.

I data lake sono particolarmente utili quando si lavora con dati in streaming, come JSON. I tre casi d’uso aziendali più classici sono l’analisi o l’intelligence aziendale, la data science incentrata sul machine learning e il data serving, applicazioni ad alte prestazioni che dipendono dai dati in tempo reale.

Tutti i principali provider di servizi cloud, da Amazon Web Services (AWS) a Microsoft Azure a Google BigQuery, offrono lo storage e i servizi necessari per i data lake basati su cloud. Qualunque sia il livello di integrazione che un’organizzazione sta cercando, dal semplice backup all’integrazione completa, le opzioni non mancano.

Come si usano oggi i data lake?

Come si usano oggi i data lake?

Rispetto a venti o trent’anni fa, la maggior parte delle decisioni aziendali non si basa più su dati transazionali archiviati in warehouse. Il cambio di rotta da un data warehouse strutturato alla fluidità della moderna struttura dei data lake è in risposta alle mutevoli esigenze e capacità delle applicazioni Big Data e data science attuali.

Anche se nuove applicazioni continuano ad emergere quasi quotidianamente, alcune delle più tradizionali per il moderno data lake sono incentrate sull’acquisizione e sull’analisi rapida di nuovi dati. Ad esempio, un data lake è in grado di abbinare i dati dei clienti di una piattaforma CRM con l’analisi dei social media, o una piattaforma di marketing può integrare la cronologia degli acquisti di un cliente. L’abbinamento di questi due elementi consente a un’azienda di capire meglio le potenziali aree di profitto o la causa dell’abbandono dei clienti.

Allo stesso modo, un data lake consente ai team di ricerca e sviluppo di sperimentare le ipotesi e valutare i risultati. Con un numero sempre più elevato di metodi per raccogliere dati in tempo reale, rende i metodi di storage o analisi più veloci, intuitivi e accessibili a un maggior numero di ingegneri.

HPE e i data lake

HPE e i data lake

I Big Data sono il metodo con cui le aziende oggi affrontano le loro più grandi problematiche. Se Hadoop ha avuto successo nel ricavare valore dai dati non strutturati, le organizzazioni sono alla ricerca di metodi nuovi e migliori per semplificare questa operazione.

Le aziende di oggi spendono somme ingenti in analisi, dai sistemi ai data scientist alla forza lavoro IT, per implementare, gestire e mantenere la gestione dei dati basata su Hadoop on-premise. Come per qualsiasi ambiente di dati, le esigenze di capacità possono cambiare in modo esponenziale.

HPE GreenLake mette a disposizione una soluzione completa end-to-end basata su cloud davvero scalabile, che include hardware, software e HPE Services. Le organizzazioni potranno così semplificare radicalmente la loro esperienza con Hadoop, eliminando le complessità e i costi per concentrarsi sull’acquisizione delle informazioni fornite dai dati. HPE GreenLake offre una soluzione completa end-to-end con hardware, software e HPE Services.

Realizzando l’intero potenziale dei dati, HPE GreenLake sfrutta appieno il data lake HDFS già contenuto nell’ambiente on-premise, con i vantaggi e le informazioni presenti nel cloud.

Soluzioni, prodotti o servizi correlati

HPE Data Solutions

Per saperne di più

Argomenti correlati

Data lakehouse

Per saperne di più

Che cos’è l’AIOps?

Per saperne di più

Delta Lake

Per saperne di più