Tiempo de lectura: 8 minutos y 43 segundos | Publicado: 16 de octubre de 2025

Redes del centro de datos de IA
¿Qué son las redes del centro de datos de IA?

Las redes del centro de datos de IA se refieren a la estructura de red del centro de datos que habilita la inteligencia artificial (IA). Admite los rigurosos requisitos de escalabilidad de red, rendimiento y baja latencia de las cargas de trabajo de IA y aprendizaje automático (ML), que son particularmente exigentes en la fase de entrenamiento de la IA.

Entre las primeras redes de entrenamiento de computación de alto rendimiento (HPC) e inteligencia artificial (IA), InfiniBand, una tecnología de red propia, de alta velocidad y baja latencia, ganó popularidad por su comunicación rápida y eficiente entre servidores y sistemas de almacenamiento. Hoy en día, la alternativa abierta es Ethernet, que está adquiriendo un impulso significativo en el mercado de redes del centro de datos de IA y se espera que se convierta en la tecnología dominante.

Existen diversas razones para la creciente adopción de Ethernet, pero el rendimiento, las operaciones y el coste destacan entre ellas. El grupo de profesionales de conectividad de red capacitados para construir y operar una red Ethernet frente a una red InfiniBand propietaria es enorme, y existe una amplia gama de herramientas disponibles para gestionar dichas redes en comparación con la tecnología InfiniBand, que proviene principalmente de Nvidia.

Servidor HPE Synergy.

Ir a

¿Qué requisitos impulsados por la IA se abordan en las redes de centros de datos de IA?

La IA generativa (GenAI) está demostrando ser una tecnología transformadora en todo el mundo. La IA generativa, y en general los grandes modelos de IA de aprendizaje profundo, plantean nuevos requisitos para las redes de centros de datos de IA. El desarrollo de un modelo de IA consta de tres fases:

  • Fase 1: preparación de datos. Recopilación y organización de conjuntos de datos que se introducirán en el modelo de IA.
  • Fase 2: entrenamiento de IA. Enseñar a un modelo de IA a realizar una tarea específica exponiéndolo a grandes cantidades de datos. Durante esta fase, el modelo de IA aprende patrones y relaciones dentro de los datos de entrenamiento para desarrollar sinapsis virtuales que imiten la inteligencia.
  • Fase 3: inferencia de IA. Operar en un entorno del mundo real para realizar predicciones o tomar decisiones basadas en datos nuevos y no vistos.

La fase 3 generalmente se apoya en las redes de centros de datos y nubes existentes. Sin embargo, la fase 2 (entrenamiento de IA) requiere amplios recursos de datos y computación para apoyar su proceso iterativo, donde el modelo de IA aprende de los datos recopilados continuamente para refinar sus parámetros. Las unidades de procesamiento gráfico (GPU) resultan idóneas para las cargas de trabajo de aprendizaje e inferencia de IA, pero deben funcionar en clústeres para ser eficientes. Escalar los clústeres mejora la eficiencia del modelo de IA, pero también aumenta los costes, por lo que es fundamental utilizar redes de centros de datos de IA de alto rendimiento y baja latencia que no obstaculicen la eficiencia del clúster.

Para entrenar modelos grandes, es necesario conectar grandes números, incluso del orden de decenas de miles, de servidores GPU (con costes que superaban los 400 000 dólares por servidor en 2023). En consecuencia, optimizar el tiempo de finalización del trabajo (JCT) y minimizar o eliminar la latencia de cola (una condición en la que las cargas de trabajo de IA atípicas ralentizan la finalización de todo el trabajo de IA) resulta esencial para mejorar el retorno de la inversión en GPU. En este caso de uso, la red del centro de datos de IA debe ser 100 % fiable y no causar ninguna degradación en la eficiencia del clúster.

 

¿Cómo funcionan las redes del centro de datos de IA?

Aunque los costosos servidores GPU suelen ser el factor determinante del coste total de los centros de datos de IA, la conectividad de red de estos centros es fundamental, ya que se requiere una red de alto rendimiento para maximizar la utilización de las GPU. Ethernet es una tecnología abierta y probada, la más adecuada para proporcionar esta solución dentro de una arquitectura de red del centro de datos optimizada para IA. Las mejoras incluyen gestión de la congestión, equilibrio de cargas y minimización de la latencia para mejorar el tiempo de finalización del trabajo (JCT). Finalmente, la gestión simplificada y la automatización garantizan la fiabilidad y el rendimiento continuo.

  • Diseño de la estructura: los centros de datos de IA pueden adoptar diversas arquitecturas de estructura, pero se recomienda una estructura Clos sin bloqueo de cualquier tipo para optimizar el rendimiento del entrenamiento a gran escala. La mayoría de los clústeres de IA actuales utilizan un diseño totalmente optimizado por canal, que garantiza un rendimiento predecible y un ancho de banda constante. Estas estructuras están construidas con velocidades de red uniformes de 400 Gbps (que pasan a 800 Gbps y 1,6 Tbps) desde la NIC hasta el nodo leaf y a través del spine. En función del tamaño del modelo y la escala del clúster de GPU, se puede implementar una estructura sin bloqueo de dos capas y tres etapas o una estructura sin bloqueo de tres capas y cinco etapas para ofrecer alto rendimiento y baja latencia.
  • Control de flujo y prevención de la congestión: además de la capacidad de la estructura, otras consideraciones de diseño aumentan su fiabilidad y eficiencia en conjunto. Estas consideraciones incluyen interconexiones de estructura con el tamaño adecuado, el número óptimo de enlaces y la capacidad de detectar y corregir desequilibrios de flujo para evitar la congestión y la pérdida de paquetes. La notificación explícita de congestión (ECN) con notificación de congestión cuantificada del centro de datos (DCQCN), más el control de flujo basado en prioridades, resuelven los desequilibrios de flujo para garantizar una transmisión sin pérdidas.

Para reducir la congestión, se implementa un balanceo de carga dinámico y adaptativo en el conmutador. El balanceo dinámico de carga (DLB) redistribuye los flujos localmente en el conmutador para distribuirlos de manera uniforme. El balanceo de carga adaptativo supervisa el flujo de reenvío y las tablas de siguiente salto para identificar desequilibrios y desviar el tráfico de las rutas congestionadas.

Cuando no se puede evitar la congestión, la notificación explícita de congestión (ECN) proporciona una notificación temprana a las aplicaciones. Durante estos períodos, los nodos leaf y spine actualizan los paquetes compatibles con ECN para notificar a los remitentes de la congestión, lo que provoca que los remitentes reduzcan la velocidad de transmisión y, así, evitar la pérdida de paquetes en tránsito. Si los terminales no reaccionan a tiempo, el control de flujo basado en prioridades (PFC) permite que los receptores Ethernet compartan información con los emisores sobre la disponibilidad del búfer. Finalmente, durante períodos de congestión, los nodos leaf y spine pueden pausar o limitar el tráfico en enlaces específicos para reducir la congestión y evitar la pérdida de paquetes, lo que permite transmisiones sin pérdidas para clases de tráfico específicas.

  • Escala y rendimiento: Ethernet se ha consolidado como la solución de estándar abierto preferida para afrontar las exigencias de la computación de alto rendimiento y las aplicaciones de IA. Ha evolucionado con el tiempo (incluida la progresión actual a 800 GbE y 1,6 TE) para volverse más rápida, más fiable y escalable, lo que la convierte en la opción preferida para manejar el alto rendimiento de datos y los requisitos de baja latencia necesarios para las aplicaciones de IA para tareas cruciales.
  • Automatización: la automatización es la pieza final para una solución eficaz de red de centro de datos de IA, aunque no todas las automatizaciones son iguales. Para obtener el máximo valor, el software de automatización debe proporcionar operaciones centradas en la experiencia. Se utiliza de forma continua en el diseño, la implementación y la gestión del centro de datos de IA. Automatiza y valida el ciclo de vida de la red del centro de datos de IA, desde el día 0 hasta el día 2+. Esto da como resultado diseños e implementaciones de centros de datos de IA repetibles y validados continuamente que no solo eliminan el error humano, sino que también aprovechan la telemetría y los flujos de datos para optimizar el rendimiento, facilitar la solución proactiva de problemas y evitar interrupciones.

La solución de red del centro de datos de IA de HPE Juniper Networking se basa en décadas de experiencia en redes e innovaciones de AIOps

La solución de red del centro de datos de IA de Juniper se basa en nuestras décadas de experiencia en redes e innovaciones de AIOps para rematar soluciones de redes de IA basadas en Ethernet abiertas, rápidas y fáciles de gestionar. Estas estructuras de alta capacidad, escalables y sin bloqueo ofrecen el mayor rendimiento de IA, el tiempo de finalización de tareas más rápido y la utilización más eficiente de la GPU. La solución de red del centro de datos con AI de Juniper se basa en tres pilares arquitectónicos fundamentales:

  • Rendimiento altamente escalable: para optimizar el tiempo de finalización de tareas y, por lo tanto, la eficiencia de la GPU.
  • Apertura estándar del sector: para ampliar las tecnologías de centros de datos existentes con ecosistemas impulsados por el sector que promuevan la innovación y reduzcan los costes a largo plazo.
  • Operaciones centradas en la experiencia: con el fin de automatizar y simplificar el diseño, la implementación y las operaciones de los centros de datos de IA para las infraestructuras de back-end, front-end y almacenamiento.

Estos pilares están sostenidos por:

  • Un diseño de red del centro de datos de IA de alta capacidad y sin pérdidas que aprovecha una estructura Clos sin bloqueo de cualquier origen a cualquier destino, la topología más versátil para optimizar los marcos de entrenamiento de IA.
  • Conmutadores y enrutadores de alto rendimiento, incluidos los HPE Juniper PTX Series Routers, basados en Juniper Express Silicon para spine/super spine, y los conmutadores de la serie QFX, basados en los ASIC Tomahawk de Broadcom como conmutadores leaf que proporcionan conectividad para servidores de IA.
  • Eficiencia de la estructura con control de flujo y prevención de colisiones.
  • Escala y rendimiento de Ethernet abierta y basada en estándares, con 800 GbE.
  • Amplia automatización mediante el software de red basado en intenciones Apstra® Data Center Director para automatizar y validar el ciclo de vida de la red del centro de datos de IA desde el día 0 hasta el día 2+.

Preguntas frecuentes sobre las redes del centro de datos de IA

¿Qué problema resuelven las redes del centro de datos de IA?

Las redes del centro de datos de IA resuelven los requisitos de rendimiento de la IA generativa y, en general, de los grandes modelos de IA de aprendizaje profundo. El entrenamiento de la IA requiere amplios recursos de datos y computación para apoyar su proceso iterativo, donde el modelo de IA aprende de los datos recopilados continuamente para refinar sus parámetros. Las unidades de procesamiento gráfico (GPU) resultan idóneas para las cargas de trabajo de aprendizaje e inferencia de IA, pero deben funcionar en clústeres para ser eficientes. Escalar los clústeres mejora la eficiencia del modelo de IA, pero también aumenta los costes, por lo que es fundamental utilizar redes de centro de datos de IA que no obstaculicen la eficiencia del clúster.

Para entrenar modelos grandes, es necesario conectar grandes números, incluso del orden de decenas de miles, de servidores GPU (con costes que superaban los 400 000 dólares por servidor en 2023). En consecuencia, maximizar el tiempo de finalización del trabajo y minimizar o eliminar la latencia de cola (una condición en la que las cargas de trabajo de IA atípicas ralentizan la finalización de todo el trabajo de IA) resulta esencial para optimizar el retorno de la inversión en GPU. En este caso de uso, la red del centro de datos de IA debe ser 100 % fiable y no causar ninguna degradación en la eficiencia del clúster.

¿Cuáles son los beneficios de la inteligencia artificial en las redes del centro de datos?

La IA en las redes del centro de datos proporciona muchos beneficios:

  • Eficiencia mejorada: los algoritmos de IA alteran dinámicamente la configuración de la red para optimizar el tráfico, minimizar la latencia y aumentar la eficiencia.
  • Escalabilidad: al gestionar los recursos según la demanda y la carga de trabajo, la automatización impulsada por la IA mejora la escalabilidad del centro de datos.
  • Ahorros de costes: la IA puede reducir los gastos de mantenimiento y administración de la red mediante la automatización de tareas habituales y la optimización del uso de recursos.
  • Seguridad mejorada: la IA puede detectar y responder a amenazas en tiempo real, reduciendo las vulneraciones de la red y los riesgos de ataque.
  • Capacidades predictivas: los análisis predictivos de la IA permiten a los centros de datos crear y mantener redes en función de las demandas y dificultades previstas.

Las redes del centro de datos de IA transforman la optimización y la gestión de la infraestructura de red utilizando aprendizaje automático e inteligencia artificial para mejorar la eficiencia, la escalabilidad, la seguridad y los costes.

¿Cuáles son las ventajas de Ethernet sobre InfiniBand para las redes del centro de datos de IA?

Entre las primeras redes de entrenamiento de computación de alto rendimiento (HPC) e inteligencia artificial (IA), InfiniBand, una tecnología de red propia, de alta velocidad y baja latencia, ganó popularidad por su comunicación rápida y eficiente entre servidores y sistemas de almacenamiento. Hoy en día, la alternativa abierta es Ethernet, que está adquiriendo un impulso significativo en el mercado de redes del centro de datos de IA y se espera que se convierta en la tecnología dominante.

Si bien las tecnologías propietarias como InfiniBand pueden aportar avances e innovación, son costosas y cobran tarifas elevadas en lugares donde los mercados competitivos de oferta y demanda no pueden regular los costes. Además, el grupo de profesionales de conectividad de red capacitados para construir y operar redes Ethernet frente a los disponibles para redes InfiniBand propietarias es enorme, y existe una amplia gama de herramientas disponibles para gestionar dichas redes en comparación con la tecnología InfiniBand, que proviene principalmente de Nvidia.

Después de IP, Ethernet es la tecnología de red más utilizada en el mundo. Ethernet ha evolucionado para ser más rápida, fiable y escalable, convirtiéndola en la opción preferida para gestionar los exigentes requisitos de rendimiento de datos y baja latencia de las aplicaciones de IA. La evolución hacia las mejoras de 800 GbE y 1,6 T en Ethernet permite una transmisión de datos de alta capacidad, baja latencia y sin pérdidas, lo que convierte a las estructuras Ethernet en muy deseables para el tráfico de IA de alta prioridad y para tareas cruciales.

¿Cuál es el futuro de las redes del centro de datos de IA?
  • Automatización de redes impulsada por la IA: la IA mejorará la automatización de la red, eliminando la intervención manual y mejorando la eficiencia operativa.
  • IA en el extremo: a medida que se expanda la computación en el extremo, la IA analizará los datos localmente en el extremo de la red, reduciendo la latencia e impulsando la toma de decisiones en tiempo real.
  • IA para ciberseguridad: la detección avanzada de amenazas, la identificación de anomalías en tiempo real y la respuesta automatizada ante incidentes mejorarán la seguridad de red.
  • 5G y lo que esté por llegar: la gestión de red impulsada por la IA ayudará al 5G y a las redes futuras a gestionar la complejidad y el volumen de los datos.
  • Redes con optimización automática: la IA permitirá que las redes modifiquen configuraciones, predigan fallos y optimicen el rendimiento sin intervención humana.
  • Sostenibilidad: la IA optimizará los sistemas de energía y refrigeración de los centros de datos, disminuyendo el impacto medioambiental.
  • Análisis de red mejorado con IA: el análisis avanzado con IA mejorará la toma de decisiones al revelar el rendimiento de la red, el comportamiento de los usuarios y patrones futuros.

La implementación de IA en redes del centro de datos es compleja, pero los planteamientos estratégicos y las mejores prácticas pueden ayudar. Las redes del centro de datos de IA están preparadas para la automatización, la seguridad y la eficiencia.

¿Qué productos y soluciones ofrece HPE Juniper Networking para las redes del centro de datos de IA?

La solución de red del centro de datos de IA de HPE Juniper Networking proporciona alta capacidad, sin pérdidas, mediante una estructura Clos sin bloqueo de cualquier origen a cualquier destino, la topología más versátil para optimizar los marcos de entrenamiento de IA. La solución aprovecha las ventajas de los conmutadores y enrutadores Ethernet de alto rendimiento, basados en estándares abiertos, con interfaces de hasta 800 GbE. Además, utiliza el software de red basado en intenciones Apstra Data Center Director para automatizar y validar el ciclo de vida de la red del centro de datos de IA desde el día 0 hasta el día 2+.

¿Cuáles son las consideraciones clave sobre las redes del centro de datos de IA?

Consideraciones clave para organizaciones que planeen adoptar IA en sus redes del centro de datos:

  • Evaluar las necesidades y objetivos de la empresa: comprender las metas y objetivos específicos para la adopción de IA en las redes del centro de datos. Mide el éxito como la mejora de la eficiencia, la seguridad, los ahorros de costes o la escalabilidad.
  • Evaluar la infraestructura actual y su preparación: evalúa el hardware, el software y la arquitectura de datos para determinar la preparación para la integración de la IA. Identifica cualquier punto débil o área que pueda requerir mejoras o modificaciones.
  • Calidad y disponibilidad de los datos: proporcionar datos de alta calidad para el entrenamiento de modelos de IA y para informar el proceso de toma de decisiones. Las políticas de gobernanza de datos garantizan la integridad, la seguridad y el cumplimiento normativo de los datos.
  • Consideraciones sobre seguridad y privacidad: al implementar soluciones de IA, deberás priorizar la ciberseguridad y la privacidad de los datos. Desarrolla sistemas de IA seguros que cumplan con las normativas y requisitos.
  • Integración y compatibilidad de la IA: crea un plan de integración completo para facilitar la incorporación de la IA a los sistemas de red. Piensa en la compatibilidad con la infraestructura heredada y la interoperatividad con la tecnología futura.
  • Conocimientos y formación: evaluar las habilidades de IA de la empresa e identificar cuáles son las carencias. Ayuda a los profesionales informáticos a aprender cómo gestionar y utilizar tecnologías impulsadas por la IA.
  • Comenzar con proyectos piloto: prueba aplicaciones de la IA poniendo en marcha proyectos piloto modestos con situaciones reales. Los programas piloto sirven para probar los sistemas de IA, detectar problemas y mejorar las tácticas de implementación antes de la implementación final.
  • Retorno de la inversión (ROI) y coste: evaluar el ROI y el coste total de la propiedad (TCO) de la implementación de la IA. Ten en cuenta los gastos en infraestructura, licencias de software, mantenimiento y formación de profesionales.
  • Selección de proveedores y partners: selecciona proveedores y partners tecnológicos con buena reputación y competencia demostrada en inteligencia artificial y redes del centro de datos. Colabora estrechamente con ellos para dejar claros los objetivos de la empresa y aprovechar al máximo la ayuda del proveedor, logrando una implementación efectiva.
  • Supervisión y mejora continua: realiza un seguimiento de los resultados comerciales de las soluciones de IA mediante métricas e indicadores clave del rendimiento. Mejora constantemente mediante evaluaciones, actualizaciones y optimizaciones basadas en datos.

Teniendo en cuenta estas características, las empresas pueden planificar e implementar la IA en las redes del centro de datos maximizando el rendimiento, la eficiencia y la seguridad y, al mismo tiempo, reduciendo los riesgos.

Soluciones, productos o servicios relacionados

Juniper Data Center Interconnect

Conmutación de red preparada para la IA

HPE Aruba Networking CX 10000 Switch Series

Temas relacionados

Gestión de datos con inteligencia artificial

Centro de datos en el extremo

Red de extremo

Redes del centro de datos

Seguridad del centro de datos

Centro de datos empresarial