Reti di data center AI Cosa sono le reti di data center AI?
Reti di data center AI si riferisce al fabric delle reti di data center che consente l'intelligenza artificiale (AI). Supporta i rigorosi requisiti di scalabilità di rete, prestazioni e bassa latenza dei carichi di lavoro di AI e machine learning (ML), particolarmente impegnativi nella fase di addestramento dell'intelligenza artificiale.
Nelle prime reti di addestramento per l'High Performance Computing (HPC) e l'intelligenza artificiale, InfiniBand, una tecnologia di rete proprietaria ad alta velocità e bassa latenza, ha inizialmente acquisito popolarità per la sua comunicazione rapida ed efficiente tra server e sistemi di storage. Oggi, l'alternativa aperta è Ethernet, che sta acquisendo notevole popolarità sul mercato delle reti di data center basate sull'intelligenza artificiale ed è destinata a diventare la tecnologia dominante.
La crescente adozione di Ethernet è dovuta a diverse ragioni, ma prestazioni, operazioni e costi si distinguono dalle altre. Il pool di talenti di professionisti della rete in grado di creare e gestire una rete Ethernet rispetto a una InfiniBand proprietaria è enorme e, inoltre, è disponibile un vasto array di tool per gestire queste reti rispetto alla tecnologia InfiniBand che proviene soprattutto da Nvidia.
Tempo di lettura: 8 minuti e 43 secondi | Pubblicazione: 16 ottobre 2025
Indice
Quali requisiti basati sull'AI vengono soddisfatti dalle reti di data center AI?
L'AI generativa (GenAI) si sta rivelando una tecnologia rivoluzionaria in tutto il mondo. L'AI generativa e, in generale, i grandi modelli di AI per il deep learning impongono nuovi requisiti per le reti di data center AI. Lo sviluppo di un modello di intelligenza artificiale prevede tre fasi.
- Fase 1: Preparazione dei dati - Raccolta e gestione dei set di dati da immettere nel modello di intelligenza artificiale.
- Fase 2: Addestramento dell'AI - Insegnare a un modello AI a svolgere un’attività specifica esponendolo a grandi quantità di dati. Durante questa fase, il modello AI apprende modelli e relazioni all'interno dei dati di addestramento per sviluppare sinapsi virtuali che imitano l'intelligenza.
- Fase 3: Inferenza dell’AI - Operare in un ambiente reale per formulare previsioni o decisioni basate su dati nuovi e inediti.
La fase 3 è generalmente supportata dai data center e dalle reti cloud esistenti. La fase 2 (addestramento dell'AI) richiede tuttavia ingenti risorse di elaborazione e dati per supportare il suo processo iterativo, in cui il modello AI apprende in modo continuo dai dati raccolti per perfezionare i suoi parametri. Le graphics processing unit (GPU) sono adatte ai carichi di lavoro di apprendimento e inferenza dell'intelligenza artificiale, ma devono funzionare in cluster per essere efficienti. La scalabilità verticale dei cluster migliora l'efficienza del modello AI ma aumenta anche i costi, è quindi fondamentale utilizzare reti di data center AI ad alte prestazioni e bassa latenza che non ostacolino l'efficienza del cluster.
Pe l’addestramento di modelli di grandi dimensioni è necessario connettere molti server GPU, anche decine di migliaia, (con costi superiori ai 400.000 dollari nel 2023). Di conseguenza, l'ottimizzazione del Job Completion Time (JCT) e la riduzione al minimo o l'eliminazione della latenza di coda (una condizione in cui i carichi di lavoro di intelligenza artificiale anomali rallentano il completamento dell'intero lavoro di intelligenza artificiale) sono fondamentali per ottimizzare il ritorno sull'investimento nella GPU. In questo caso d'uso, la rete di data center AI deve essere affidabile al 100% e non diminuire l’efficienza del cluster.
Come funzionano le reti di data center AI?
Anche se, in generale, server GPU costosi rappresentano il costo complessivo dei data center AI, la rete di data center AI è fondamentale in quanto è necessaria una rete ad alte prestazioni per aumentare al massimo l’utilizzo della GPU. Ethernet è una tecnologia aperta e collaudata, la più adatta a fornire questa soluzione all'interno di un'architettura di reti di data center ottimizzata per l'intelligenza artificiale. I miglioramenti includono la gestione della congestione, il bilanciamento del carico e la latenza ridotta al minimo per migliorare il JCT. Infine, gestione e automazione semplificate garantiscono affidabilità e prestazioni continue.
- Progettazione del fabric: i data center AI possono adottare diverse architetture di fabric, ma per ottimizzare le prestazioni durante l'addestramento su larga scala si consiglia un fabric Clos any-to-any non bloccante. La maggior parte dei cluster di intelligenza artificiale utilizza una progettazione fully rail-optimized, garantendo prestazioni prevedibili e larghezza di banda costante. Questi fabric sono realizzati con velocità di rete uniformi di 400 gb/s (che passano a 800 gb/s e 1.6 tb/s) dalla NIC alla leaf e attraverso la spine. In base alla dimensione del modello e alla scala del cluster GPU, è possibile distribuire un fabric non bloccante a due livelli e tre stadi o un fabric non bloccante a tre livelli e cinque stadi per garantire un throughput elevato e una bassa latenza.
- Controllare il flusso ed evitare la congestione: oltre alla capacità del fabric, ulteriori considerazioni progettuali ne aumentano l'affidabilità e l'efficienza nel suo complesso. Queste considerazioni includono interconnessioni fabric di dimensioni adeguate con il numero ottimale di link e la capacità di rilevare e correggere squilibri di flusso per evitare congestione e perdita di pacchetti. La Explicit Congestion Notification (ECN) con Data Center Quantized Congestion Notification (DCQCN) e il controllo del flusso basato sulla priorità risolvono gli squilibri di flusso per garantire una trasmissione lossless.
Per ridurre la congestione, sullo switch viene distribuito un bilanciamento dinamico e adattivo del carico. Il bilanciamento dinamico del carico (DLB) ridistribuisce i flussi sullo switch a livello locale per distribuirli in modo uniforme. Il bilanciamento del carico adattivo monitora l'inoltro del flusso e le tabelle degli hop successivi per identificare gli squilibri e deviare il traffico dai percorsi congestionati.
Quando non si riesce ad evitare la congestione, l'ECN invia una notifica tempestiva alle applicazioni. Durante questi periodi, il leaf-spine aggiorna i pacchetti compatibili con ECN per avvisare i mittenti della congestione inducendo i mittenti a rallentare la trasmissione per evitare la perdita di pacchetti durante il transito. Se gli endpoint non reagiscono in tempo, il Priority-Based Flow Control (PFC) consente ai ricevitori Ethernet di condividere il feedback con i mittenti sulla disponibilità del buffer. Infine, durante i periodi di congestione, il leaf-spine può sospendere o limitare il traffico su link specifici per ridurre la congestione ed evitare la perdita di pacchetti, consentendo trasmissioni lossless per classi di traffico specifiche.
- Scala e prestazioni: Ethernet si è affermata come la soluzione a standard aperto preferita per gestire le rigidità delle applicazioni HPC e AI. Si è evoluta nel tempo (tra cui l’attuale avanzamento a 800 GbE e 1.6 TE) per diventare più veloce, efficiente e scalabile ed è quindi la scelta preferita per gestire elevati requisiti di throughput di dati e bassa latenza necessari per le applicazioni AI mission-critical.
- Automazione: l'automazione è l'elemento finale di una soluzione per reti di data center AI efficace, anche se non tutta l'automazione è uguale. Per ottenere il massimo valore, il software di automazione deve garantire operazioni basate sull'esperienza. Viene utilizzato costantemente nella progettazione, nella distribuzione e nella gestione del data center AI. Automatizza e convalida il ciclo di vita delle reti di data center AI dal giorno 0 al giorno 2+. Questo porta a progettazioni e distribuzioni di data center AI ripetibili e costantemente convalidati che non solo eliminano gli errori umani, ma sfruttano anche i dati di telemetria e di flusso per ottimizzare le prestazioni, facilitare la risoluzione dei problemi proattiva ed evitare interruzioni.
La soluzione per reti di data center AI di HPE Juniper Networking si basa su decenni di esperienza nel networking e sulle innovazioni AIOps
La soluzione per reti di data center AI di Juniper si basa sulla nostra decennale esperienza in ambito di rete e innovazioni AIOps per completare soluzioni di rete AI basate su Ethernet aperte, veloci e semplici da gestire. Questi fabric ad alta capacità, scalabili e non bloccanti offrono le massime prestazioni di intelligenza artificiale, tempi di completamento dei lavori più rapidi e un utilizzo più efficiente della GPU. La soluzione per reti di data center AI Juniper sfrutta tre pilastri architettonici fondamentali.
- Prestazioni altamente scalabili: per ottimizzare i tempi di completamento dei lavori e quindi l'efficienza della GPU.
- Apertura agli standard di settore: per estendere le tecnologie dei data center esistenti con ecosistemi guidati dal settore che promuovono l'innovazione e riducono i costi nel lungo termine.
- Operazioni basate sull'esperienza: per automatizzare e semplificare la progettazione, la distribuzione e le operazioni dei data center AI per i fabric back-end, front-end e storage.
Questi capisaldi sono supportati da quanto segue.
- Un progetto di reti di data center AI lossless e ad alta capacità che sfrutta un fabric Clos non bloccante any-to-any, la topologia più versatile per ottimizzare i framework di addestramento dell’AI.
- Switch e router ad alte prestazioni, tra cui Juniper PTX Series Routers, basati su Juniper Express Silicon per spine/super spine e gli switch serie QFX, basati sugli ASIC Tomahawk di Broadcom come switch leaf che garantiscono la connettività ai server AI.
- Efficienza del fabric con controllo del flusso per evitare le collisioni.
- Scalabilità e prestazioni Ethernet aperte e basate su standard con 800 GbE.
- Ampia automazione mediante il software di rete basato su finalità Apstra® Data Center Director per automatizzare e convalidare il ciclo di vita delle reti di data center AI dal giorno 0 al giorno 2+.
Domande frequenti sulle reti di data center AI
Quale problema risolvono le reti di data center AI?
Le reti di data center AI rispondono ai requisiti sulle prestazioni dell'AI generativa e dei grandi modelli AI per il deep learning in generale. L'addestramento dell'AI richiede ingenti risorse di elaborazione e dati per supportare il suo processo iterativo in cui il modello AI apprende dai dati raccolti in modo continuo per perfezionare i suoi parametri. Le graphics processing unit (GPU) sono adatte ai carichi di lavoro di apprendimento e inferenza dell'intelligenza artificiale, ma devono funzionare in cluster per essere efficienti. La scalabilità verticale dei cluster migliora l'efficienza del modello AI ma aumenta anche i costi, è quindi fondamentale utilizzare reti di data center AI che non ostacolino l'efficienza del cluster.
Per addestrare modelli di grandi dimensioni, è necessario connettere molti server GPU, anche decine di migliaia (con costi superiori a 400.000 dollari per server nel 2023). Di conseguenza, l’ottimizzazione del Job Completion Time e la riduzione al minimo o l'eliminazione della latenza di coda (una condizione in cui i carichi di lavoro di intelligenza artificiale anomali rallentano il completamento dell'intero lavoro di intelligenza artificiale) sono fondamentali per ottimizzare il ritorno sull'investimento nella GPU. In questo caso d'uso, la rete di data center AI deve essere affidabile al 100% e non provocare una diminuzione dell’efficienza del cluster.
Quali sono i vantaggi offerti dall'intelligenza artificiale nelle reti di data center?
L'intelligenza artificiale nelle reti di data center offre numerosi vantaggi, tra cui:
- miglioramento dell’efficienza: gli algoritmi dell’AI modificano in modo dinamico le impostazioni di rete per ottimizzare il traffico, ridurre al minimo la latenza e aumentare l'efficienza;
- scalabilità: gestendo le risorse in base alla domanda e al carico di lavoro, l'automazione basata sull'AI migliora la scalabilità del data center;
- risparmi sui costi: l'intelligenza artificiale può ridurre le spese di manutenzione e amministrazione della rete automatizzando le attività ordinarie e ottimizzando l'uso delle risorse;
- sicurezza avanzata: l'intelligenza artificiale è in grado di rilevare e rispondere alle minacce in tempo reale, riducendo le violazioni della rete e i rischi di attacco;
- capacità predittive: l'analisi predittiva dell'intelligenza artificiale consente ai data center di creare e gestire le reti in base a richieste e problematiche previste.
Le reti di data center AI trasformano la gestione e l'ottimizzazione dell'infrastruttura di rete tramite machine learning e intelligenza artificiale per migliorare l'efficienza, la scalabilità, la sicurezza e i costi.
Quali sono i vantaggi di Ethernet rispetto a InfiniBand per le reti di data center AI?
Nelle prime reti di addestramento per l'High Performance Computing (HPC) e l'intelligenza artificiale, InfiniBand, una tecnologia di rete proprietaria ad alta velocità e bassa latenza, ha inizialmente acquisito popolarità per la sua comunicazione rapida ed efficiente tra server e sistemi di storage. Oggi, l'alternativa aperta è Ethernet, che sta acquisendo notevole popolarità sul mercato delle reti di data center basate sull'intelligenza artificiale moderne ed è destinata a diventare la tecnologia dominante.
Sebbene tecnologie proprietarie come InfiniBand possano apportare progressi e innovazione, sono costose e addebitano sovrapprezzi nei casi in cui i mercati competitivi basati sulla domanda e sull'offerta non riescono a regolare i costi. Inoltre, il pool di talenti di professionisti della rete in grado di creare e gestire una rete Ethernet rispetto a una InfiniBand proprietaria è enorme e, inoltre, è disponibile un vasto array di tool per gestire queste reti rispetto alla tecnologia InfiniBand che proviene soprattutto da Nvidia.
Dopo l’IP, Ethernet è la tecnologia di rete più diffusa al mondo. Ethernet si è evoluta per diventare più veloce, affidabile e scalabile ed è quindi preferita per gestire elevati requisiti di throughput di dati e bassa latenza delle applicazioni AI. L’avanzamento di Ethernet a 800 GbE e 1.6 T consente una trasmissione dati lossless ad alta capacità, bassa latenza, che rende i fabric Ethernet estremamente ambiti per il traffico AI ad alta priorità e mission-critical.
Qual è il futuro delle reti di data center AI?
- Automazione della rete basata sull'AI: l'intelligenza artificiale migliorerà l'automazione della rete, eliminando l'intervento manuale e ottimizzando l'efficienza operativa.
- AI edge: con l'espansione dell'edge computing, l'intelligenza artificiale analizzerà i dati a livello locale all’edge della rete, riducendo la latenza e rafforzando il processo decisionale in tempo reale.
- Intelligenza artificiale per la cybersicurezza: il rilevamento avanzato delle minacce, l'identificazione delle anomalie in tempo reale e la risposta automatizzata agli incidenti miglioreranno la protezione della rete.
- 5G e oltre: la gestione della rete basata sull'AI consentirà alle reti 5G e a quelle future di gestire la complessità e i volumi di dati.
- Reti con ottimizzazione automatica: l'intelligenza artificiale consentirà alle reti di modificare le impostazioni, prevedere i guasti e ottimizzare le prestazioni senza l'intervento umano.
- Sostenibilità: l'intelligenza artificiale ottimizzerà i sistemi di alimentazione e di raffreddamento nei data center, riducendo l'impatto ambientale.
- Analisi della rete potenziata dall'AI: l'analisi avanzata dell'intelligenza artificiale migliorerà il processo decisionale rivelando le prestazioni della rete, il comportamento degli utenti e i modelli futuri.
L'implementazione dell'intelligenza artificiale nelle reti di data center è complessa, ma approcci strategici e best practice possono rivelarsi utili. Le reti di data center AI sono predisposte per l'automazione, la sicurezza e l'efficienza.
Quali prodotti e soluzioni fornisce HPE Juniper Networking per le reti di data center AI?
La soluzione per reti di data center AI di HPE Juniper Networking garantisce una progettazione di reti di data center AI lossless e ad alta capacità che utilizza un fabric Clos non bloccante any-to-any, la topologia più versatile per ottimizzare i framework di addestramento dell’AI. La soluzione sfrutta switch e router Ethernet ad alte prestazioni basati su standard aperti con interfacce fino a 800 GbE. Inoltre, utilizza il software di rete basato su intento Apstra Data Center Director per automatizzare e convalidare il ciclo di vita delle reti di data center AI dal giorno 0 al giorno 2+.
Quali sono le considerazioni principali per le reti di data center AI?
Considerazioni principali per le organizzazioni che pianificano di adottare l'intelligenza artificiale nelle proprie reti di data center.
- Valutazione delle esigenze e degli obiettivi aziendali: comprendere gli obiettivi specifici per l'adozione dell'intelligenza artificiale nelle reti di data center. Definire il successo come il miglioramento dell'efficienza, della sicurezza, del risparmio sui costi o della scalabilità.
- Valutazione dell'infrastruttura attuale e della preparazione: valutare l'architettura hardware, software e dati per la predisposizione all'integrazione dell'intelligenza artificiale. Individuare eventuali lacune o aree che potrebbero richiedere miglioramenti o modifiche.
- Qualità e disponibilità dei dati: fornire dati di alta qualità per l'addestramento dei modelli di intelligenza artificiale e il processo decisionale. Le policy di governance dei dati garantiscono integrità, sicurezza e compliance dei dati.
- Considerazioni sulla sicurezza e sulla privacy: quando si distribuiscono soluzioni di AI, è opportuno dare priorità alla cybersicurezza e alla privacy dei dati. Sviluppare sistemi di intelligenza artificiale sicuri che rispettino norme e requisiti.
- Integrazione e compatibilità dell'AI: creare un piano completo per l’integrazione efficiente dell'intelligenza artificiale nei sistemi di rete. Valutare la compatibilità delle infrastrutture legacy e l'interoperabilità delle tecnologie future.
- Competenze e formazione: valutare le competenze dell'azienda in materia di intelligenza artificiale e identificare le lacune. Consentire ai professionisti IT di imparare come gestire e utilizzare le tecnologie basate sull'AI.
- Iniziare con progetti pilota: testare le applicazioni di intelligenza artificiale con progetti pilota di dimensioni ridotte in circostanze reali. I programmi pilota testano i sistemi di AI, scoprono i problemi e migliorano le strategie di implementazione prima della distribuzione.
- ROI e costi: valutare il ROI e il TCO della distribuzione dell’AI. Considerare i costi di infrastruttura, licenze software, manutenzione e formazione.
- Selezione dei fornitori e partnership: selezionare fornitori e partner tecnologici affidabili con competenze comprovate in materia di intelligenza artificiale e reti di data center. Collaborare a stretto contatto per l’allineamento agli obiettivi aziendali e sfruttare il supporto dei fornitori per un'implementazione efficace.
- Monitoraggio e miglioramento continuo: monitorare i risultati commerciali delle soluzioni di AI tramite metriche e KPI. Garantire il miglioramento continuo tramite valutazioni, aggiornamenti e ottimizzazioni data-driven.
Affrontando queste tematiche, le aziende possono pianificare e implementare l'intelligenza artificiale nelle loro reti di data center per aumentare al massimo le prestazioni, l'efficienza e la sicurezza, riducendo al minimo i rischi.