Pipeline di dati

Cosa sono le pipeline di dati?

Le pipeline di dati vengono utilizzate per spostare i dati da un'origine a una destinazione, per esempio un data lake o un data warehouse

Quali sono i componenti di una pipeline di dati?

Una pipeline di dati è composta da tre fasi: un’origine, un’elaborazione o trasformazione e una destinazione o posizione di archiviazione. L'origine è il luogo da cui provengono i dati, Le origini dati comuni includono database, sistemi CRM, sensori IoT e altro ancora. La fase di elaborazione o trasformazione include tutte le operazioni che modificano i dati, tra cui trasporto, conversione, ordinamento, consolidamento, deduplicazione, convalida e analisi. La fase finale, lo storage, è il punto in cui vengono archiviati i dati trasformati in modo che gli utenti possano accedervi, tipicamente data warehouse, data lake e datamart.

Le pipeline ETL sono considerate una sottocategoria delle pipeline di dati. La principale differenza tra una pipeline ETL e una pipeline di dati è che la prima può trasformare i dati in più modi. Ad esempio, una pipeline ETL può combinare dati metrici specifici per semplificarne l'analisi e trasferire i dati in base a una pianificazione prestabilita (come quando il traffico di rete rallenta) e non in tempo reale, consentendo il trasferimento a intervalli regolari anziché in modo continuo.

Soluzioni, prodotti o servizi HPE correlati

Quali sono le tipologie di pipeline di dati?

Pipeline in tempo reale

Le pipeline in tempo reale vengono spesso utilizzate nei settori o nelle aziende di informazioni finanziarie che elaborano i dati direttamente tramite servizi di streaming, per esempio nella generazione di report analitici e meteorologici. Questo sistema elabora i dati istantaneamente attraverso un'architettura in grado di analizzare milioni di eventi su vasta scala, fornendo informazioni estremamente attendibili.

Pipeline open source

Le pipeline open source sono un sistema a costi contenuti utilizzato dalle piccole imprese e dal pubblico in generale per spostare, elaborare e archiviare i dati. I tool utilizzati sono più economicamente vantaggiosi di quelli utilizzati nei sistemi in tempo reale o basati su cloud. Questi sistemi sono aperti al pubblico e richiedono una personalizzazione intenzionale in tutti i casi d'uso.

Pipeline cloud

Come indicato dal nome stesso, le pipeline cloud utilizzano, trasformano e analizzano i dati basati su cloud. Eliminando la necessità di un'infrastruttura di storage in loco, le organizzazioni possono raccogliere e analizzare i dati all'interno di una struttura basata su cloud. Le pipeline cloud native spesso includono un’ampia serie di funzionalità di sicurezza per via della natura stessa del servizio.

Pipeline di elaborazione batch

Le pipeline di elaborazione batch sono una delle scelte più comuni per i sistemi di storage. Spesso utilizzati per spostare e archiviare enormi quantitativi di dati in modo coerente, i sistemi di pipeline di elaborazione batch vengono adoperati dalle organizzazioni per convertire e spostare i dati da archiviare e analizzare a una velocità inferiore rispetto a quelli in tempo reale a causa dell'enorme volume spostato.

Pipeline di streaming

Le pipeline di streaming, insieme a quelle di elaborazione batch, sono le due forme più comuni di pipeline di dati. Le pipeline di streaming consentono agli utenti di acquisire dati strutturati e non strutturati da una vasta gamma di origini diverse.

Cos'è l'architettura della pipeline di dati?

L'architettura della pipeline di dati si riferisce ai sistemi che collegano le origini, i sistemi di elaborazione, i tool di analisi e le applicazioni.

L'architettura della pipeline di dati garantisce la raccolta di tutti i dati pertinenti, consentendo ai data scientist di acquisire informazioni per indirizzare i comportamenti, promuovere l'efficienza nei percorsi dei clienti e valorizzare le esperienze utente. Le pipeline di dati raccolgono dati non elaborati, li instradano a un sito di storage appropriato e li trasformano in informazioni fruibili. L'architettura è dinamicamente stratificata: inizia con l'acquisizione e termina con la supervisione continua.

Fondamentalmente, i dati non elaborati coinvolgono una serie di punti dati, troppi per acquisire informazioni. L'architettura delle pipeline di dati coinvolge il sistema creato per acquisire, strutturare e spostare i dati da cui trarre informazioni, in modo da analizzarli per una comprensione e un utilizzo più approfonditi. Tutto questo viene spesso ottenuto tramite soluzioni di automazione, software e storage dati.

I percorsi di storage sono determinati in base al formato dei dati raccolti. L'invio al percorso di storage corretto è un passaggio fondamentale nell'architettura della pipeline, con opzioni per l'archiviazione di dati masterizzati all'interno di un sistema di storage strutturato (per es. un data warehouse) o di dati strutturati in modo più approssimativo all'interno di un data lake. Gli analisti possono raccogliere informazioni dai dati strutturati liberamente all'interno dei data lake o analizzare quelli masterizzati nel quadro di un percorso di storage centrale. Senza il corretto posizionamento in un ambiente di storage, non può esserci una supervisione pratica all'interno dell'architettura, limitando ulteriormente le applicazioni future. 

HPE e le pipeline di dati

HPE Ezmeral è una piattaforma ibrida di analisi e data science progettata per promuovere la modernizzazione data-first, consentendo alle aziende di sfruttare tutti i vantaggi dei propri dati ovunque si trovino. HPE Ezmeral supporta i servizi di analisi HPE GreenLake per aiutare i clienti a unificare, modernizzare e analizzare tutti i dati dall'edge al cloud.

HPE Ezmeral consente di ottenere il massimo dai dati e di innovare in tempi più rapidi, con efficienza, flessibilità e un’ampia possibilità di scelta: questi vantaggi non sono disponibili nelle soluzioni di nicchia e basate su cloud. Ecco come funziona.

Fornisce una piattaforma software unificata 100% open source e progettata per le applicazioni native e non cloud native (legacy) eseguite su qualsiasi infrastruttura, on premise o negli ambienti ibridi e multi-cloud.

Unifica i dati e modernizza le applicazioni con il primo data fabric integrato del settore ottimizzato per l’analisi ad alte prestazioni. Accelera i tempi di acquisizione delle informazioni riunendo file, oggetti, flussi di eventi e database NoSQL in un'infrastruttura e un file system logici unici per fornire accesso globale ai dati sincronizzati.

Risolve le problematiche dell'operazionalizzazione dei modelli di ML su scala enterprise con una soluzione che offre velocità e agilità simili a DevOps, associate a un'esperienza paragonabile al cloud che accelera i carichi di lavoro.

Offre un'esperienza uniforme tra i team con un'unica piattaforma che sfrutta un'ampia gamma di tool di analisi e ML. L'automazione integrata e l'esperienza cloud native semplificano la connessione degli utenti e dei loro tool ai dati, ai motori di elaborazione e allo spazio di storage corretti, consentendo ai team di concentrarsi sul reale valore delle informazioni.

Offre libertà e flessibilità con tool e framework open source integrati in un data lakehouse ibrido unificato. L’app store integrato o HPE Ezmeral Marketplace consente la rapida creazione di motori e ambienti semplificati e personalizzati, basati su soluzioni full-stack convalidate da partner ISV di fiducia.