Carico di lavoro HPC
Cos'è un carico di lavoro HPC?

Un carico di lavoro HPC è un'attività altamente complessa e a uso intensivo di dati, distribuita su più risorse di elaborazione, ciascuna delle quali esegue parti dell'attività in parallelo. Un sistema HPC può eseguire milioni di scenari contemporaneamente, utilizzando terabyte (TB) di dati alla volta, consentendo alle organizzazioni di ottenere informazioni in modo più rapido.

Indice

    Quali sono i diversi componenti di un carico di lavoro HPC?

    Ogni carico di lavoro HPC è diverso e richiede livelli differenti di CPU e memoria riservata per completare le attività che dipendono dall’impegno necessario, dalla sua durata, dagli intervalli e dall'entità. Al livello più elementare, un carico di lavoro, o query, raccoglie input (I) e produce output (O). Può essere suddiviso nei seguenti componenti.

    · richiesta: il termine "lavoro" in carico di lavoro si riferisce a quello che viene richiesto a un'applicazione. Comporta una serie di operazioni di lettura e scrittura (comandi I/O) e il relativo carico da e verso un sistema di storage.

    · Applicazione/i e VM: ogni carico di lavoro è legato alle risorse utilizzate per portare a termine il lavoro o allo sforzo continuo di un'applicazione. Il modo in cui l'applicazione elabora i dati e i limiti intrinseci del software determineranno le caratteristiche del carico di lavoro stesso.

    · Set di lavoro: il volume di dati creato/consumato durante un carico di lavoro è definito set di lavoro. Un tipico carico di lavoro HPC consuma enormi quantità di dati, per lo più in formati non strutturati. I dati utilizzati dai modelli HPC aumentano in modo esponenziale mentre scienziati e ingegneri lavorano al fine tuning della precisione per i loro carichi di lavoro.

    · Ciclo di lavoro: quando viene completata una serie di processi che poi si ripete, si parla di ciclo di lavoro. Il tempo di ripetibilità approssimativa di tale attività dipende in larga misura da chi utilizza i dati e dallo scopo dell'applicazione, nonché dalle prestazioni dello storage.

    Come si gestiscono i carichi di lavoro HPC?

    Un sistema HPC tradizionale utilizza un'interfaccia a riga di comando (CLI) per gestire l'invio e l’amministrazione delle attività. Il processo di gestione di un carico di lavoro HPC inizia in modo molto simile a quello di qualsiasi altro carico di lavoro di dati, con l'identificazione e la preparazione dei dati rilevanti, seguito dall'invio della richiesta, dall'esecuzione dell'applicazione e dalla raccolta e archiviazione dei risultati generati.

    Preparazione dei dati

    La precisone di qualsiasi carico di lavoro HPC dipende dall'igiene dei dati. Le organizzazioni devono eseguire la pulizia sui set di dati da analizzare per aggiornare/rimuovere i dati imprecisi, incompleti, formattati in modo errato o duplicati.

    Configurazione dell'accesso ai dati

    Sebbene i carichi di lavoro HPC richiedano un accesso facile e veloce ai dati, le organizzazioni devono implementare policy per fornire tali dati in modo sicuro ed efficiente. Gli stessi controlli di crittografia e di accesso vengono eseguiti su tutte le risorse utilizzate che si tratti di data lake, data fabric, architetture di lakehouse o reti neurali.

    Scelta degli algoritmi

    La selezione degli algoritmi da utilizzare e la successiva creazione, addestramento e distribuzione dei modelli di analisi richiede una competenza approfondita e dovrebbe essere definita dai data scientist che inviano le richieste.

    Esecuzione delle query

    Nell’HPC spesso si utilizzano diverse applicazioni per generare i risultati. Per suddividere e organizzare queste analisi complesse vengono utilizzate piattaforme software di elaborazione distribuita, come Apache Hadoop, Databricks e Cloudera.

    Quali sono i diversi tipi di carichi di lavoro HPC?

    Esistono diverse categorie di carichi di lavoro HPC, che analizzano enormi quantità di dati, ricercando tendenze, formulando previsioni e generando modifiche consigliate per operazioni o relazioni.

    Intelligenza artificiale

    Nella sua forma più semplice, l'intelligenza artificiale (AI) prevede che le macchine simulino l'intelligenza umana quando elaborano le informazioni. Si concentra sulle capacità cognitive che gli esseri umani utilizzano quotidianamente per gestire miliardi di decisioni al giorno, tra cui l'apprendimento, il ragionamento e l'autocorrezione. L'apprendimento implica l'acquisizione di dati di input e la creazione di regole per trasformarli in informazioni fruibili. Il ragionamento prevede la determinazione dell'algoritmo giusto da utilizzare per ottenere il risultato desiderato. L'autocorrezione è la parte più preziosa del processo di intelligenza artificiale, in cui ogni decisione contribuisce al fine tuning continuo degli algoritmi.

    Machine learning

    Il machine learning (ML), un tipo di intelligenza artificiale, utilizza algoritmi per prevedere i risultati in modo sempre più accurato. L'uso più comune del machine learning è il motore di raccomandazione che supporta le organizzazioni che offrono contenuti multimediali, come Netflix, Spotify, Facebook e altre. Altri utilizzi includono CRM, business intelligence, assistenti virtuali, sistemi informatici per le risorse umane e auto a guida autonoma.

    Deep learning

    Si tratta di un sottoinsieme del machine learning e si riferisce all'automazione dell'analisi predittiva nell'ML. Utilizza livelli di elaborazione delle informazioni, sviluppando una comprensione più sofisticata a ogni livello e apprendendo gradualmente informazioni più complesse su un set di dati. Tra i casi d’uso più tipici figurano le auto a guida autonoma, in cui il supercomputer installato sviluppa competenze automatizzate per pilotare il veicolo.

    Come funzionano i carichi di lavoro HPC negli ambienti cloud?

    Il cloud è una piattaforma ideale per l'HPC, perché spostando i carichi di lavoro HPC in questo ambiente, un'organizzazione può usufruire di servizi e capacità di elaborazione pressoché illimitate on demand. Questo significa che è possibile utilizzare tutte le risorse necessarie per un singolo carico di lavoro e poi rilasciarle una volta completato.

    Inoltre, è possibile assemblare un'infrastruttura di istanze di elaborazione e risorse di storage basate su cloud, gestendo persino centinaia di migliaia di server distribuiti in un parco di data center globali. Questo consente di mantenere i dati ed eseguire l'attività di elaborazione in prossimità del luogo in cui si svolgono le operazioni di Big Data o in una determinata regione di un cloud provider. L'infrastruttura e i software services si trovano sul cloud, gli utenti possono quindi assemblare l'infrastruttura per un progetto di Big Data quasi di ogni dimensione.

    Il vantaggio principale dell'esecuzione di un sistema HPC nel cloud è dato dal fatto che le risorse possono essere aggiunte e rimosse in base alle necessità, in modo dinamico e in tempo reale. La capacità di scalare in modo così rapido elimina il problema dei colli di bottiglia della capacità e consente ai clienti di dimensionare in modo adeguato la propria infrastruttura per adattarla ai carichi di lavoro con maggiore precisione. Inoltre, con l'infrastruttura sottostante offerta nel cloud, gli utenti sono in grado di elaborare un maggior numero di carichi di lavoro con meno personale, con conseguenti risparmi sui costi e la possibilità per i dipendenti di dedicarsi ad attività a maggior valore aziendale.

    HPE e i carichi di lavoro HPC

    HPE offre il portafoglio software più completo sul mercato per HPC e flussi di lavoro convergenti. La nostra ampia gamma di hardware comprende soluzioni con flessibilità superiore per aprire le porte all'intelligenza artificiale, al machine learning e ad altre tecniche HPC, nonché tecnologie di storage e interconnessione scalabili e ad alte prestazioni che non hanno eguali nel settore. Tra questi sistemi figurano HPE Apollo, Slingshot e il nostro Parallel Storage, che garantiscono prestazioni senza precedenti e ottimizzazioni delle GPU.

    HPE Pointnext Services fornisce e supporta una gamma completa di soluzioni e modelli di consumo per HPC e flussi di lavoro convergenti. Inoltre, gestiamo e ottimizziamo l'intera soluzione, in linea con la tecnologia che segue le best practice di HPE, per soddisfare i requisiti HPC della tua organizzazione.

    HPE GreenLake for HPC è una soluzione end-to-end on-premise per applicazioni HPC, progettata per offrire incredibili prestazioni leader di settore, senza che i team debbano dedicare tempo all'integrazione e alla messa a punto dei componenti. Semplifica e accelera la distribuzione dei carichi di lavoro HPC e AI e consente agli utenti finali, agli sviluppatori e ai data scientist di eseguire flussi di lavoro HPC, AI puri e HPC/AI convergenti, su cluster ad alte prestazioni, sfruttando la customer experience HPE GreenLake completa.

    Soluzioni HPE, prodotti o servizi correlati

    HPE GreenLake

    HPE GreenLake for HPC

    HPE Pointnext

    Argomenti correlati