Hadoop

Cos’è Apache Hadoop?

Apache Hadoop fornisce un framework open source che consente l’elaborazione distribuita di grandi set di dati su cluster di risorse di elaborazione. La sua progettazione consente di scalare da server singoli a migliaia di server, ciascuno dei quali offre funzionalità di elaborazione e di storage locali.

Perché è utile Hadoop?

La proliferazione dei Big Data e dei dispositivi di raccolta dati in tutte le operazioni di business offre alle aziende opportunità significative per innovare e raggiungere il successo. Hadoop rileva e gestisce i guasti a livello di applicazione, anziché di hardware ed è quindi in grado di fornire elevata disponibilità su un cluster di computer, anche se i singoli server possono essere soggetti a guasti.

Com’è stato sviluppato Hadoop?

Hadoop è nato dalla necessità di elaborare volumi sempre maggiori di Big Data ed è stato ispirato da MapReduce di Google, un modello di programmazione che suddivide un’applicazione in componenti più piccoli da eseguire su diversi nodi del server. A differenza delle soluzioni proprietarie di data warehouse predominanti al momento della sua introduzione, Hadoop consente alle organizzazioni di analizzare e interrogare grandi set di dati in modo scalabile usando software gratuito open source e hardware standard. Consente inoltre alle aziende di archiviare ed elaborare i Big Data a costi inferiori, scalabilità superiore e maggiore potenza di elaborazione, fault tolerance e flessibilità. Hadoop ha anche aperto la strada a ulteriori sviluppi nell’analisi dei Big Data, come Apache Spark.

Quali sono i vantaggi di Hadoop?

Hadoop presenta cinque vantaggi significativi che lo rendono particolarmente utile per i progetti Big Data. Hadoop è:

1. Scalabile

La sua capacità di archiviare e distribuire grandi set di dati su centinaia di server poco costosi che operano in parallelo lo rende estremamente scalabile. A differenza dei sistemi di database relazionali (RDBMS) tradizionali, Hadoop è in grado di scalare fino a eseguire applicazioni su migliaia di nodi che coinvolgono migliaia di terabyte di dati.

2. Flessibile

Hadoop può attingere a dati strutturati e non strutturati per generare valore. Le aziende possono ricavare informazioni aziendali da una vasta gamma di origini dati, come i canali dei social media, i dati dei siti web e le conversazioni email. Hadoop può inoltre essere usato per scopi che vanno dai sistemi di raccomandazione, all’elaborazione dei registri, al data warehousing, all’analisi delle campagne di marketing, fino al rilevamento delle frodi.

3. Economicamente vantaggioso

Gli RBDMS tradizionali hanno costi estremamente proibitivi in termini di scalabilità per l’elaborazione di grandi volumi di Big Data. Le aziende che utilizzano tali sistemi in precedenza dovevano eliminare enormi quantitativi di dati non elaborati, poiché era troppo costoso conservare tutto. Al contrario, l’architettura a scalabilità orizzontale di Hadoop consente alle aziende di archiviare tutti i dati per un uso successivo a costi decisamente più contenuti.

4. Rapido

Hadoop utilizza un esclusivo metodo di storage basato su un file system distribuito che mappa i dati ovunque si trovino su un cluster. Inoltre, i suoi tool per l’elaborazione dei dati si trovano spesso sugli stessi server dove risiedono i dati, consentendo un’elaborazione dei dati più rapida. Per queste caratteristiche, Hadoop può elaborare in modo efficiente terabyte di dati non strutturati in minuti e petabyte in ore.

5. Fault-tolerant

I dati archiviati in qualsiasi nodo di un cluster Hadoop vengono replicati su altri nodi del cluster per essere pronti a eventuali guasti hardware o software. Questo modello intenzionalmente ridondante garantisce la fault tolerance. Se un nodo non funziona, nel cluster è sempre disponibile un backup dei dati.

Hadoop rende la gestione di grandi set di dati sicura, a costi contenuti e molto più semplice rispetto ai sistemi di gestione di database relazionali. Il suo valore per un’azienda aumenta con l’aumento della quantità di dati non strutturati che un’organizzazione possiede. Hadoop è adatto a funzionalità di ricerca, data warehousing dell’elaborazione dei registri e analisi di video e immagini.

Come funziona Hadoop?

HDFS

Hadoop Distributed File System (HDFS) consente di archiviare enormi quantitativi di dati in vari formati e di distribuirli in un cluster Hadoop. Fornisce un accesso ad alta capacità ai dati delle applicazioni ed è adatto alle applicazioni che dispongono di grandi set di dati. A differenza di altri sistemi distribuiti, HDFS è estremamente fault-tolerant, è stato progettato utilizzando hardware a costi contenuti ed è eseguibile su hardware standard.

MapReduce

Il modulo MapReduce è sia un modello di programmazione, sia un motore di elaborazione dei Big Data utilizzato per l'elaborazione parallela di grandi set di dati. Con MapReduce, la logica di elaborazione viene inviata a vari nodi slave, quindi i dati vengono elaborati in parallelo su questi nodi. I risultati elaborati vengono poi inviati al nodo master dove vengono uniti e tale risposta viene rimandata al client. MapReduce era inizialmente l’unico motore di esecuzione disponibile in Hadoop, ma successivamente Hadoop ha aggiunto il supporto per altri, come Apache Tez e Apache Spark.

YARN

Yet Another Resource Negotiator (YARN) di Hadoop è un altro componente core del framework Hadoop. Viene utilizzato per la gestione delle risorse dei cluster, la pianificazione delle attività e la programmazione dei processi in esecuzione su Hadoop. Consente l’elaborazione parallela dei dati archiviati su HDFS. YARN consente al sistema Hadoop di fare un uso efficiente delle risorse disponibili, aspetto essenziale per elaborare un elevato volume di dati.

Come viene utilizzato Hadoop?

Le aziende di diversi settori utilizzano Hadoop per l’analisi dei Big Data al fine di ottenere vantaggi per le loro organizzazioni.

Società di servizi finanziari

Le organizzazioni finanziarie sfruttano Hadoop per prendere decisioni di investimento critiche e ridurre il rischio. Le società finanziarie e bancarie usano l’analisi dei Big Data per approvare e rifiutare le richieste di prestiti e carte di credito con maggiore precisione. Questa analisi viene anche utilizzata per identificare attività potenzialmente sospette sui conti in base ai comportamenti di acquisto passati. Anche le compagnie assicurative utilizzano Hadoop per rilevare e prevenire richieste di risarcimento fraudolente. Le assicurazioni sanitarie possono sfruttare i Big Data per formulare polizze su misura in base alle specifiche caratteristiche demografiche dei pazienti. Hadoop viene anche utilizzato per ottenere informazioni dalle conversazioni di chat online con i clienti per migliorare la qualità di erogazione del servizio e generare customer experience più personalizzate.

Telecomunicazioni

I gestori dei servizi di telecomunicazione generano regolarmente grandi quantità di dati a velocità elevatissime e conservano miliardi di tabulati. I Big Data vengono utilizzati per generare dati di fatturazione accurati per milioni di clienti e prevedere la domanda futura di larghezza di banda, oltre alle dinamiche di comunicazione dei clienti. Queste informazioni vengono poi utilizzate per la pianificazione delle infrastrutture future e per creare nuovi prodotti e servizi per i clienti.

Assistenza sanitaria

Il settore dell’assistenza sanitaria ha a disposizione enormi quantità di dati provenienti da cartelle cliniche, dati di ricerca e sperimentazione, dispositivi medici elettronici e altro ancora. Hadoop fornisce un’elaborazione dei dati parallela senza vincoli, fault tolerance e storage per miliardi di cartelle cliniche. La piattaforma viene anche utilizzata per analizzare i dati clinici, che possono essere utilizzati sia per valutare le tendenze in materia di salute pubblica per popolazioni di miliardi di persone, sia per creare opzioni terapeutiche personalizzate per i singoli pazienti in base alle loro esigenze.

Vendita al dettaglio

L’enorme quantità di dati che i rivenditori generano oggi richiede un’elaborazione avanzata. I dati cronologici delle transazioni possono essere caricati in un cluster Hadoop al fine di sviluppare applicazioni di analisi per prevedere la domanda, pianificare le scorte, realizzare promozioni mirate e anticipare le preferenze dei consumatori.

 

Soluzioni HPE per Hadoop

La HPE Elastic Platform for Big Data Analytics (EPA) è stata progettata come base infrastrutturale modulare per soddisfare le esigenze di una piattaforma multi-tenant scalabile. A tal fine, supporta la scalabilità indipendente di elaborazione e storage attraverso i blocchi costitutivi dell’infrastruttura ottimizzati per la densità e i carichi di lavoro. Sono disponibili due diversi modelli di distribuzione:

  • Sistema HPE Balanced and Density Optimized (BDO): supporta distribuzioni Hadoop convenzionali che scalano contemporaneamente elaborazione e storage, con una certa flessibilità nella scelta di memoria, processore e capacità di storage.
  • Sistema HPE Workload and Density Optimized (WDO): sfrutta la potenza delle reti Ethernet più veloci e consente un approccio a blocchi per scalare in modo indipendente elaborazione e storage, consentendo il consolidamento dei dati e dei carichi di lavoro che aumentano a ritmi diversi.

HPE offre inoltre una soluzione scalabile che semplifica notevolmente l’esperienza con Hadoop. Consente di abbattere i costi e la complessità di Hadoop per concentrarsi esclusivamente sull’estrazione di informazioni dai cluster Hadoop. Dotato di supporto per ambienti simmetrici e asimmetrici, HPE GreenLake propone una soluzione completa end‑to-end per i Big Data che comprende hardware, software e servizi. Gli esperti di HPE predisporranno l’ambiente operativo necessario per consentirti di gestire e mantenere i cluster. Inoltre, semplificheranno la fatturazione, allineandola ai KPI aziendali. L’esclusivo metodo di determinazione dei prezzi e di fatturazione HPE rende molto più facile capire i costi Hadoop esistenti e prevedere meglio quelli futuri associati alla tua soluzione.