Temps de lecture : 8 minutes 43 secondes | Publication : 16 octobre 2025
Réseau de datacenter d’IA Qu’est-ce qu’un réseau de datacenter d’IA ?
Le réseau de datacenter d’IA fait référence au fabric réseau des datacenters qui assurent le fonctionnement de l’intelligence artificielle (IA). Il prend en charge les exigences rigoureuses des charges de travail d’IA et de machine learning (ML) en matière d’évolutivité, de performance et de faible latence du réseau, qui sont particulièrement élevées lors de la phase d’entraînement IA.
Dans les premiers réseaux de calcul haute performance (HPC) et d’entraînement IA, InfiniBand, une technologie de réseau propriétaire à haut débit et faible latence, a d’abord été plébiscitée pour la communication rapide et efficace qu’elle offre entre les serveurs et les systèmes de stockage. Aujourd’hui, l’alternative ouverte est Ethernet, qui gagne du terrain sur le marché des réseaux de datacenter d’IA et devrait devenir la technologie dominante.
L’adoption croissante d’Ethernet s’explique par de multiples raisons, mais les performances, l’exploitation et le coût sont des facteurs déterminants. Le vivier de professionnels réseau capables de construire et d’exploiter un réseau Ethernet, par opposition à un réseau propriétaire InfiniBand, est immense. De plus, une vaste gamme d’outils est disponible pour gérer de tels réseaux, tandis que la technologie InfiniBand provient principalement de Nvidia.
À quelles exigences liées à l’IA le réseau de datacenter d’IA doit-il répondre ?
L’IA générative (GenAI) s’impose à travers le monde comme une technologie révolutionnaire. L’IA générative, et plus généralement les grands modèles IA appliquée au deep learning, engendrent de nouvelles exigences en matière de réseau de datacenter d’IA. Le développement d’un modèle IA comporte trois phases :
- Phase 1 : Préparation des données – Collecte et organisation des ensembles de données à intégrer au modèle IA.
- Phase 2 : Entraînement IA – Entraînement d’un modèle IA pour effectuer une tâche spécifique en l’exposant à de grandes quantités de données. Durant cette phase, le modèle IA apprend les régularités et les relations présentes au sein des données d’entraînement afin de développer des synapses virtuelles pour imiter l’intelligence.
- Phase 3 : Inférence IA – Fonctionnement dans un environnement réel en vue de faire des prédictions ou de prendre des décisions basées sur des données nouvelles et inédites.
La phase 3 est généralement prise en charge par les réseaux de datacenter et de cloud existants. Cependant, la phase 2 (Entraînement IA) nécessite d’importantes ressources de données et de calcul pour soutenir son processus itératif, au cours duquel le modèle IA apprend à partir de données collectées en continu pour affiner ses paramètres. Les processeurs graphiques (GPU) sont bien adaptés aux charges de travail d’entraînement et d’inférence IA, mais doivent fonctionner en clusters pour être efficaces. L’augmentation du nombre de clusters améliore l’efficacité du modèle IA, mais accroît également les coûts. Il est donc essentiel d’utiliser un réseau de datacenter d’IA à hautes performances et à faible latence qui ne nuise pas à l’efficacité du cluster.
Un grand nombre – jusqu’à plusieurs dizaines de milliers – de serveurs GPU (dont le coût dépassait 400 000 USD par serveur en 2023) doivent être connectés pour entraîner de grands modèles. En conséquence, l’optimisation du temps d’achèvement des tâches (JCT) et la minimisation ou l’élimination de la latence de queue (le phénomène dans lequel les charges de travail d’IA aberrantes ralentissent l’achèvement de la tâche d’IA tout entière) sont des éléments clés pour optimiser le retour sur investissement des GPU. Dans ce cas d’utilisation, le réseau de datacenter d’IA doit être fiable à 100 % et ne pas entraîner de dégradation de l’efficacité du cluster.
Comment fonctionne un réseau de datacenter d’IA ?
Bien que les serveurs GPU onéreux soient généralement le principal déterminant du coût global des datacenters d’IA, un réseau de datacenter d’IA hautement performant est néanmoins crucial pour optimiser l’utilisation des GPU. Technologie ouverte et éprouvée, Ethernet convient parfaitement pour fournir cette solution au sein d’une architecture réseau de datacenter optimisée pour l’IA. Les améliorations recherchées comprennent la gestion de la congestion, l’équilibrage de charge et la réduction de la latence afin d’améliorer le JCT. Enfin, la simplification de la gestion et l’automatisation garantissent la fiabilité et la continuité des performances.
- Conception du fabric : Les datacenters d’IA peuvent adopter diverses architectures de fabric, mais un fabric Clos non bloquant du type « any-to-any » est recommandé pour optimiser les performances lors de l’entraînement à grande échelle. La plupart des clusters d’IA actuels utilisent une conception entièrement optimisée pour les rails garantissant des performances prévisibles et une bande passante constante. Ces fabrics sont conçus avec des vitesses réseau uniformes de 400 Gbit/s (évoluant vers 800 Gbit/s et 1,6 Tbit/s) de la carte réseau jusqu’au commutateur leaf en passant par le spine. Selon la taille du modèle et l’échelle du cluster de GPU, un fabric non bloquant à deux couches et trois étages ou à trois couches et cinq étages pourra être déployé pour offrir un débit élevé et une faible latence.
- Contrôle des flux et prévention des congestions : Outre la capacité du fabric, des facteurs de conception supplémentaires peuvent être pris en compte pour augmenter la fiabilité et l’efficacité globales du fabric. Ceux-ci comprennent le dimensionnement approprié des interconnexions de fabric avec un nombre de liaisons optimal, ainsi que la capacité de détecter et de corriger les déséquilibres de flux afin de prévenir la congestion et la perte de paquets. La notification de congestion explicite (ECN) avec notification de congestion quantifiée du datacenter (DCQCN) et contrôle de flux basé sur la priorité résout les déséquilibres de flux pour garantir une transmission sans perte.
Pour réduire la congestion, un équilibrage de charge dynamique et adaptatif est déployé au niveau du commutateur. L’équilibrage de charge dynamique (DLB) redistribue les flux localement au niveau du commutateur afin de les répartir uniformément. L’équilibrage de charge adaptatif surveille les tables de routage et de saut suivant afin d’identifier les déséquilibres et de détourner le trafic des chemins congestionnés.
Lorsque la congestion ne peut pas être évitée, l’ECN fournit une notification anticipée aux applications. Durant ces périodes, les commutateurs leaf et spine mettent à jour les paquets compatibles ECN pour informer les expéditeurs de la congestion, ce qui oblige ceux-ci à ralentir la transmission pour éviter les pertes de paquets en transit. Si les points de terminaison ne réagissent pas à temps, le contrôle de flux basé sur la priorité (PFC) permet aux récepteurs Ethernet de partager des informations sur la disponibilité de la mémoire tampon avec les expéditeurs. Enfin, en période de congestion, les commutateurs leaf et spine peuvent suspendre ou limiter le trafic sur des liens spécifiques afin de réduire la congestion et d’éviter les pertes de paquets, permettant ainsi des transmissions sans perte pour des classes de trafic spécifiques.
- Échelle et performance : Ethernet s’est imposé comme la solution standard ouverte de référence pour gérer les exigences du calcul haute performance et des applications d’IA. Ce standard a connu plusieurs évolutions au fil du temps (y compris la progression actuelle vers 800 GbE et 1,6 TE) pour devenir plus rapide, plus fiable et plus évolutif, ce qui en fait le choix privilégié pour gérer les exigences des applications d’IA stratégiques en matière de débit de données élevé et de faible latence.
- Automatisation : L’automatisation est la dernière pièce du puzzle pour une solution de réseau de datacenter d’IA efficace, même si toutes les solutions d’automatisation ne se valent pas. Pour être pleinement utile, le logiciel d’automatisation doit privilégier les opérations axées sur l’expérience. Il est utilisé en continu pour la conception, le déploiement et la gestion du datacenter d’IA. Il automatise et valide le cycle de vie du réseau de datacenter d’IA du jour 0 au jour 2 et au-delà. Il en résulte des conceptions et des déploiements de datacenter d’IA reproductibles et validés en continu qui permettent non seulement d’éliminer les erreurs humaines, mais aussi de tirer parti des données de télémétrie et de flux pour optimiser les performances, faciliter le dépannage proactif et éviter les interruptions.
La solution de réseau de datacenter d’IA de HPE Juniper Networking s’appuie sur des décennies d’expérience en matière de réseaux et d’innovations dans le domaine de l’AIOps
La solution de réseau de datacenter d’IA de Juniper s’appuie sur nos décennies d’expérience en matière de réseaux et d’innovations dans le domaine de l’AIOps pour proposer des solutions de réseau d’IA basées sur Ethernet qui soient tout à la fois ouvertes, rapides et simples à gérer. Ces fabrics haute capacité, évolutifs et non bloquants garantissent les meilleures performances en matière d’IA, le temps d’exécution des tâches le plus court et l’utilisation des GPU la plus efficace. L’architecture de la solution de réseau de datacenter d’IA de Juniper repose sur trois piliers fondamentaux :
- Performances massivement évolutives – pour optimiser le temps d’exécution des tâches et donc l’efficacité du GPU.
- Ouverture conforme aux normes de l’industrie – pour étendre les technologies existantes des datacenters grâce à des écosystèmes pilotés par le secteur qui favorisent l’innovation et réduisent les coûts à long terme.
- Opérations axées sur l’expérience – afin d’automatiser et de simplifier la conception, le déploiement et l’exploitation des datacenters d’IA pour les fabrics back-end, front-end et de stockage.
Ces piliers sont soutenus par :
- Une conception de réseau de datacenter d’IA haute capacité et sans perte tirant parti d’un fabric Clos non bloquant du type « any-to-any », la topologie la plus polyvalente pour optimiser les frameworks d’entraînement IA.
- Des commutateurs et routeurs hautes performances, tels que les routeurs HPE Juniper PTX Series Routers, basés sur Juniper Express Silicon pour le spine/super spine, et les commutateurs QFX Series Switches, basés sur les ASIC Tomahawk de Broadcom, en tant que commutateurs leaf assurant la connectivité des serveurs d’IA.
- L’efficacité du fabric garantie par le contrôle de flux et l’évitement des collisions.
- L’évolutivité et les performances de l’Ethernet ouvert et standardisé à 800 GbE.
- L’automatisation poussée assurée par le logiciel de réseau intent-based Apstra® Data Center Director pour automatiser et valider le cycle de vie du réseau de datacenter d’IA du jour 0 au jour 2 et au-delà.
FAQ relative au réseau de datacenter d’IA
Quel problème le réseau de datacenter d’IA permet-il de résoudre ?
Le réseau de datacenter d’IA répond aux exigences de performances de l’IA générative et, plus généralement, des grands modèles d’IA par deep learning. L’entraînement IA requiert d’importantes ressources de données et de calcul pour soutenir son processus itératif, dans lequel le modèle IA apprend à partir de données collectées en continu afin d’affiner ses paramètres. Les processeurs graphiques (GPU) sont bien adaptés aux charges de travail d’entraînement et d’inférence IA, mais doivent fonctionner en clusters pour être efficaces. La montée en échelle des clusters améliore l’efficacité du modèle IA, mais elle accroît également les coûts. Il est donc essentiel d’utiliser un réseau de datacenter d’IA qui ne nuise pas à l’efficacité du cluster.
Un grand nombre – jusqu’à plusieurs dizaines de milliers – de serveurs GPU (dont le coût dépassait 400 000 USD par serveur en 2023) doivent être connectés pour entraîner de grands modèles. En conséquence, l’optimisation du temps d’achèvement des tâches et la minimisation ou l’élimination de la latence de queue (le phénomène dans lequel les charges de travail d’IA aberrantes ralentissent l’achèvement de la tâche d’IA tout entière) sont des éléments clés pour optimiser le retour sur investissement des GPU. Dans ce cas d’utilisation, le réseau de datacenter d’IA doit être fiable à 100 % et ne pas entraîner de dégradation de l’efficacité dans le cluster.
Quels sont les avantages de l’IA dans le réseau de datacenter ?
L’IA dans le réseau de datacenter présente de nombreux avantages :
- Efficacité améliorée : Les algorithmes d’IA modifient dynamiquement les paramètres du réseau pour optimiser le trafic, minimiser la latence et augmenter l’efficacité.
- Évolutivité : En gérant les ressources en fonction de la demande et de la charge de travail, l’automatisation fondée sur l’IA améliore l’évolutivité du datacenter.
- Économies de coûts : L’IA peut réduire les dépenses de maintenance et d’administration du réseau en automatisant les tâches régulières et en optimisant l’utilisation des ressources.
- Sécurité renforcée : L’IA peut détecter les menaces et y répondre aux en temps réel, réduisant ainsi les violations du réseau et les risques d’attaque.
- Capacités prédictives : L’analyse prédictive de l’IA permet aux datacenters de créer et de maintenir des réseaux en fonction des demandes anticipées et des préoccupations.
Le réseau de datacenter d’IA transforme la gestion et l’optimisation de l’infrastructure réseau en utilisant le machine learning et l’IA pour optimiser l’efficacité, l’évolutivité, la sécurité et les coûts.
Quels sont les avantages de l’Ethernet par rapport à l’InfiniBand pour le réseau de datacenter d’IA ?
Dans les premiers réseaux de calcul haute performance (HPC) et d’entraînement IA, InfiniBand, une technologie de réseau propriétaire à haut débit et faible latence, a d’abord été plébiscitée pour la communication rapide et efficace qu’elle offre entre les serveurs et les systèmes de stockage. Aujourd’hui, l’alternative ouverte Ethernet du terrain sur le marché des réseaux de datacenters d’IA modernes et devrait devenir la technologie dominante.
Bien que potentiellement porteuses de progrès et d’innovations, les technologies propriétaires comme InfiniBand sont onéreuses et source de surcoûts là où les marchés concurrentiels de l’offre et de la demande ne peuvent pas réguler les prix. De plus, le vivier de professionnels réseau capables de construire et d’exploiter un réseau Ethernet, par opposition à un réseau propriétaire InfiniBand, est immense. De plus, une vaste gamme d’outils est disponible pour gérer de tels réseaux, tandis que la technologie InfiniBand provient principalement de Nvidia.
Après le protocole IP, Ethernet est la technologie de réseau la plus répandue au monde. Ethernet a évolué pour devenir plus rapide, plus fiable et plus évolutif, ce qui en fait la solution privilégiée pour gérer les exigences de débit de données élevé et de faible latence des applications d’IA. Le passage aux technologies 800 GbE et 1,6 T Ethernet permet une transmission de données à haute capacité, à faible latence et sans perte, ce qui rend les fabrics Ethernet hautement souhaitables pour le trafic d’IA prioritaire et stratégique.
Quel est l’avenir du réseau de datacenter d’IA ?
- Automatisation du réseau pilotée par l’IA : L’IA va améliorer l’automatisation du réseau, de façon à éliminer les interventions manuelles et à optimiser l’efficacité opérationnelle.
- IA à l’edge : À mesure que l’informatique à l’edge se développe, l’IA analysera les données localement à la périphérie du réseau, réduisant ainsi la latence et améliorant la prise de décision en temps réel.
- L’IA pour la cybersécurité : La détection avancée des menaces, l’identification des anomalies en temps réel et la réponse automatisée aux incidents amélioreront la sécurité du réseau.
- 5G et au-delà : La gestion de réseau guidé par l’IA aidera la 5G et les futurs réseaux à gérer la complexité et les volumes de données.
- Réseaux auto-optimisés : L’IA permettra aux réseaux de modifier les paramètres, de prévoir les pannes et d’optimiser les performances sans intervention humaine.
- Durabilité : L’IA optimisera les systèmes énergétiques et de refroidissement dans les datacenters, réduisant ainsi les impacts sur l’environnement.
- Analyse de réseau améliorée par l’IA : L’analyse avancée de l’IA va améliorer la prise de décision en révélant les performances du réseau, le comportement des utilisateurs et les modèles à venir.
La mise en œuvre de l’IA dans les réseaux de datacenters est complexe, mais les approches stratégiques et les meilleures pratiques peuvent être utiles. Le réseau de datacenter d’IA va évoluer vers plus d’automatisation, de sécurité et d’efficacité.
Quels sont les produits et solutions proposés par HPE Juniper Networking pour le réseau de datacenter d’IA ?
La solution de réseau de datacenter d’IA de HPE Juniper Networking offre une conception de réseau de datacenter d’IA haute capacité et sans perte qui utilise un fabric Clos non bloquant du type « any-to-any », la topologie la plus polyvalente pour optimiser les frameworks d’entraînement IA. Cette solution tire parti de commutateurs et de routeurs Ethernet hautes performances basés sur des normes ouvertes et dotés d’interfaces pouvant atteindre 800 GbE. En outre, elle utilise le logiciel de réseau intent-based Apstra® Data Center Director pour automatiser et valider le cycle de vie du réseau du datacenter d’IA du jour 0 au jour 2+.
Quels sont les principaux points à prendre en considération concernant le réseau de datacenter d’IA ?
Considérations clés pour les entreprises qui envisagent d’adopter l’IA dans leur réseau de datacenter :
- Évaluation des besoins et objectifs métier : Il s’agit de comprendre les buts et objectifs spécifiques motivant l’introduction de l’IA dans le réseau de datacenter. Définissez le succès comme l’amélioration de l’efficacité, de la sécurité, des économies de coûts ou de l’évolutivité.
- Évaluer l’infrastructure actuelle et son état de préparation : Évaluez l’architecture matérielle, logicielle et de données pour la préparation à l’intégration de l’IA. Identifiez les lacunes ou les domaines qui peuvent nécessiter des améliorations ou des modifications.
- Qualité et disponibilité des données : Fournissez des données de haute qualité pour l’entraînement de modèle IA et la prise de décision. Les politiques de gouvernance des données garantissent l’intégrité, la sécurité et la conformité des données.
- Considérations relatives à la sécurité et à la confidentialité : Au moment du déploiement de solutions d’IA, privilégiez la cybersécurité et la confidentialité des données. Développer des systèmes d’IA sécurisés qui répondent aux normes et aux prérequis.
- Intégration et compatibilité de l’IA : Créez un plan d’intégration complet et fluide pour intégrer l’IA dans les systèmes de réseau. Pensez à la compatibilité des infrastructures existantes et à l’interopérabilité des technologies futures.
- Compétences et formation : Évaluez les compétences de l’entreprise en matière d’IA et identifiez les lacunes. Aidez les professionnels de l’informatique à apprendre à gérer et à utiliser les technologies guidées par l’IA.
- Commencer par des projets pilotes : Testez des applications d’IA à l’aide de projets pilotes modestes dans des circonstances réelles. Les programmes pilotes testent les systèmes d’IA, découvrent les problèmes et améliorent les tactiques de mise en œuvre avant le déploiement.
- Retour sur investissement et coût : Évaluez le retour sur investissement et le coût total de possession pour le déploiement de l’IA. Tenez compte des coûts d’infrastructure, de licences logicielles, de maintenance et de formation.
- Sélection des fournisseurs et partenariats : Sélectionnez des fournisseurs et des partenaires technologiques réputés possédant des compétences démontrées en matière d’IA et de réseau de datacenter. Collaborez étroitement pour vous aligner sur les objectifs de l’entreprise et exploiter le soutien des fournisseurs pour une mise en œuvre efficace.
- Suivi et amélioration continue : Suivez les résultats commerciaux des solutions d’IA à l’aide de mesures et d’indicateurs clés de performance. Assurez une amélioration continue sous la forme d’évaluations, de mises à jour et d’optimisations centrées sur les données.
En tenant compte de ces caractéristiques, les entreprises peuvent planifier et mettre en œuvre l’IA dans leur réseau de datacenter pour maximiser les performances, l’efficacité et la sécurité tout en minimisant les risques.