AI 数据中心网络 什么是 AI 数据中心网络?
AI 数据中心网络是指支持人工智能 (AI) 的数据中心网络结构。它可满足 AI 和机器学习 (ML) 工作负载对网络可扩展性、性能和低延迟的严格要求,这在 AI 训练阶段尤为苛刻。
在早期高性能计算 (HPC) 和 AI 训练网络中,InfiniBand 作为一种高速度、低延迟的专有网络技术,最初凭借其在服务器与存储系统之间快速高效的通信能力而广受欢迎。如今,以太网作为开放式替代方案,不仅在 AI 数据中心网络市场中获得强劲发展势头,更有望成为主导性技术。
以太网日益普及的原因多种多样,其中性能、运维与成本三大优势尤为突出。相较于专有的 InfiniBand 网络,能够构建并运营以太网的专业人才储备更为庞大,且相较于主要依赖 Nvidia 的 InfiniBand 技术,用于管理此类网络的工具种类也更为丰富。
阅读时长:8 分 43 秒 | 发布日期:2025 年 10 月 16 日
目录
AI 数据中心网络满足了哪些 AI 驱动型需求?
生成式 AI (GenAI) 正展现出其作为全球性变革技术的强大影响力。生成式 AI 以及大型深度学习 AI 模型的普及,对 AI 数据中心网络提出了新的要求。开发 AI 模型分为三个阶段:
- 第一阶段:数据准备 – 收集并整理要输入到 AI 模型中的数据集。
- 第二阶段:AI 训练 – 通过向 AI 模型输入大量数据,使其学会执行特定任务。在此阶段,AI 模型会学习训练数据中的模式与关系,发展出模拟智能行为的虚拟突触。
- 第三阶段:AI 推理 – 在真实环境中运行,基于新的未知数据做出预测或决策。
第三阶段通常由现有数据中心和云网络提供支持。然而,第二阶段(AI 训练)需要大量数据和计算资源来支持其迭代过程。在此过程中,AI 模型不断收集数据并进行学习,从而优化其参数。图形处理单元 (GPU) 非常适合 AI 学习和推理工作负载,但必须以群集方式工作才能高效运行。扩展群集规模虽能提升 AI 模型效率,但也会增加成本,因此采用高性能、低延迟且不会影响群集效率的 AI 数据中心网络至关重要。
训练大型模型需要连接大量甚至多达数万台 GPU 服务器(2023 年每台服务器成本超过 40 万美元)。因此,优化作业完成时间 (JCT) 并最大程度地减少或消除尾部延迟(即异常 AI 工作负载拖慢整个 AI 作业完成进度的情况),正是优化 GPU 投资回报的关键所在。在该用例中,AI 数据中心网络必须保证 100% 的运行可靠性,并且不能导致群集效率下降。
AI 数据中心网络如何运作?
尽管昂贵的 GPU 服务器通常会增加 AI 数据中心的整体成本,但 AI 数据中心网络仍至关重要,因为只有高性能网络才能最大限度地提高 GPU 利用率。以太网作为一种经过验证的开放技术,最适合在针对 AI 优化的数据中心网络架构中提供此类解决方案。这些改进包括拥塞管理、负载均衡以及最小化延迟,从而优化 JCT。最后,简化的管理和自动化确保了可靠性和持续性能。
- 结构设计:虽然 AI 数据中心可采用多种结构架构,但建议采用任意到任意的无阻塞 Clos 结构来优化大规模训练的性能。当前大多数 AI 群集都采用全线优化设计,以确保性能可预测且带宽稳定。这些网状架构从 NIC 到枝叶再到主干,均采用 400 Gbps(正逐步提升至 800 Gbps 和 1.6 Tbps)的统一网络速度。根据模型大小和 GPU 群集规模,可部署一个两层三级无阻塞结构或三层五级无阻塞结构,以实现高吞吐量和低延迟的目标。
- 流量控制与拥塞规避:除架构容量外,设计时还需考虑提升整体结构的可靠性与效率。这些考虑因素包括:将尺寸适配的结构与最佳数量的链路互连,检测与纠正流量失衡问题的能力,从而避免拥塞和数据包丢失。显式拥塞通知 (ECN) 结合数据中心量化拥塞通知 (DCQCN) 以及基于优先级的流量控制,可解决流量失衡问题,从而确保无损传输。
为减少拥塞问题,交换机上部署了动态负载均衡和自适应负载均衡两种策略。动态负载均衡 (DLB) 可在交换机本地重新分配流量,以对其进行平均分配。自适应负载均衡则通过监控流量转发和下一跳表来识别失衡问题,并引导流量远离拥塞路径。
当拥塞无法避免时,ECN 会提前向应用程序发出通知。在此期间,枝叶和主干会更新 ECN 支持的数据包,通知发送端拥塞情况,促使其降低传输速率,从而避免数据包在传输过程出现丢失。如果端点未能及时响应,基于优先级的流量控制 (PFC) 可使以太网接收器向发送端反馈缓冲区的可用性状态。最后,在拥塞期间,枝叶和主干可暂停或限制特定链路上的流量,从而缓解拥塞并避免数据包丢失,确保特定流量类别的无损传输。
- 可扩展性和性能:以太网凭借其开放标准特性,已成为应对高性能计算与 AI 应用严苛需求的首选解决方案。该技术随时间推移不断发展(包括当前向 800 GbE 和 1.6 TE 的技术发展),变得更快速、更可靠且更具可扩展性,使其成为应对关键业务 AI 应用所需的高数据吞吐量和低延迟需求的首选方案。
- 自动化:自动化是构建高效 AI 数据中心网络解决方案的最后一项环节,但并非所有自动化都具有同等效果。要实现最大价值,自动化软件必须具备以体验为先的运维功能。该技术持续应用于 AI 数据中心的设计、部署和管理。它实现了 AI 数据中心网络整个生命周期的自动化和验证,涵盖从规划部署到运维优化阶段。由此一来,就可以重复并持续验证 AI 数据中心的设计和部署,不仅能消除人为失误,还能利用遥测和流量数据来优化性能、促进主动故障排除并避免中断。
HPE Juniper Networking AI 数据中心网络解决方案基于数十年积淀的网络经验和 AIOps 创新成果构建而成
Juniper AI 数据中心网络解决方案基于我们数十年积淀的网络经验和 AIOps 创新成果构建而成,是一种开放、高速且易于管理的以太网 AI 网络解决方案。这些高容量、可扩展、无阻塞的网络结构可提供最顶尖的 AI 性能、最快的任务完成速度和最高效的 GPU 利用率。Juniper AI 数据中心网络解决方案依托于三大基础架构支柱:
- 大规模可扩展性能 – 旨在优化任务完成时间,从而提升 GPU 效率。
- 行业标准开放性 – 通过行业驱动的生态系统扩展现有数据中心技术,从而促进创新并降低长期运营成本。
- 体验优先型运维 – 自动化并简化后端、前端和存储结构中的 AI 数据中心设计、部署和运维流程。
这些支柱通过以下方面提供支持:
- AI 数据中心网络采用高容量、无损耗的设计,并使用任意到任意无阻塞 Clos 结构,这是优化 AI 训练框架最通用的拓扑结构。
- 高性能交换机和路由器,包括基于 Juniper Express Silicon 的 HPE Juniper PTX Series Routers(可用于主干/超级主干),以及基于 Broadcom Tomahawk ASIC 的 QFX 系列交换机(可作为枝叶交换机,提供 AI 服务器连接)。
- 借助流量控制与冲突规避提升结构效率。
- 开放式、基于标准的以太网扩展能力与性能,支持 800 GbE 传输速率。
- 借助 Apstra® Data Center Director 基于意图的网络软件实现全面自动化,从而在规划部署到运维优化的生命周期中自动管理并验证 AI 数据中心网络。
AI 数据中心网络常见问题解答
AI 数据中心网络解决了哪些问题?
AI 数据中心网络解决了生成式 AI 和大型深度学习 AI 模型中普遍存在的性能需求问题。AI 训练需要大量数据和计算资源来支持其迭代过程,在此过程中,AI 模型不断收集数据并进行学习,从而优化其参数。图形处理单元 (GPU) 非常适合 AI 学习和推理工作负载,但必须以群集方式工作才能高效运行。扩展群集规模虽能提升 AI 模型效率,但也会增加成本,因此采用不会影响群集效率的 AI 数据中心网络至关重要。
训练大型模型需要连接大量甚至多达数万台 GPU 服务器,2023 年每台服务器成本就已超过 40 万美元。因此,最大限度缩短作业完成时间并最大程度减少或消除尾部延迟(即异常 AI 工作负载拖慢整个 AI 作业完成进度的情况),正是优化 GPU 投资回报的关键所在。在该用例中,AI 数据中心网络必须保证 100% 的运行可靠性,并且不能导致群集效率下降。
数据中心网络采用 AI 技术的好处有哪些?
数据中心网络采用 AI 技术的好处包括:
- 提高效率:AI 算法可动态改变网络设置,优化流量,最大限度地减少延迟,并提高效率。
- 可扩展性:通过根据需求和工作负载管理资源,AI 驱动型自动化提高了数据中心的可扩展性。
- 节省成本:AI 可以通过自动执行常规工作和优化资源降低网络维护和管理费用。
- 增强安全性:AI 可以实时检测并应对威胁,减少网络漏洞和攻击风险。
- 预测能力:AI 的预测分析允许数据中心根据预期需求和关注点来构建和维护网络。
AI 数据中心网络使用机器学习和 AI 转变网络基础设施管理和优化,从而提高效率、可扩展性、安全性并降低成本。
对于 AI 数据中心网络而言,以太网相较于 InfiniBand 有哪些优势?
在早期高性能计算 (HPC) 和 AI 训练网络中,InfiniBand 作为一种高速度、低延迟的专有网络技术,最初凭借其在服务器与存储系统之间快速高效的通信能力而广受欢迎。如今,以太网作为开放式替代方案,不仅在现代 AI 数据中心网络市场中获得强劲发展势头,更有望成为主导性技术。
虽然像 InfiniBand 这样的专有技术能够推动技术进步和创新,但其成本高昂,在竞争性供需市场无法调控成本的情况下,会收取高额溢价。此外,相较于专有的 InfiniBand 网络,能够构建并运营以太网的专业人才储备更为庞大,且相较于主要依赖 Nvidia 的 InfiniBand 技术,用于管理此类网络的工具种类也更为丰富。
以太网是继 IP 之后全球应用最广泛的网络技术。以太网技术不断发展,变得更快速、更可靠且可扩展性更强,使其成为满足 AI 应用高数据吞吐量和低延迟需求的首选方案。800GbE 和 1.6T 以太网的技术升级,实现了高容量、低延迟和无损的数据传输,使以太网结构成为高优先级和关键业务 AI 流量的理想选择。
AI 数据中心网络的未来会是怎样的?
- AI 驱动型网络自动化:AI 将提高网络自动化程度,消除人工参与需求并提高运维效率。
- 边缘 AI:随着边缘计算的扩展,AI 将在网络边缘本地分析数据,降低延迟并促进实时决策。
- 网络安全 AI:先进的威胁检测、实时异常识别和自动事件响应将提高网络安全性。
- 5G 及未来:AI 驱动型网络管理将帮助 5G 和未来网络处理复杂性和数据量。
- 自优化网络:AI 将使网络能够在无人干预的情况下修改设置、预测故障并优化性能。
- 可持续性:AI 将优化数据中心的能源和冷却系统,减少对环境的影响。
- AI 增强型网络分析:高级 AI 分析将通过揭示网络性能、用户行为和未来模式来改进决策机制。
数据中心网络中的 AI 实施很复杂,但采用战略方法和最佳实践可能会有所帮助。AI 数据中心网络致力于实现自动化、安全性和提高效率。
HPE Juniper Networking 为 AI 数据中心网络提供哪些产品和解决方案?
HPE Juniper Networking AI 数据中心网络解决方案采用高容量、无损的 AI 数据中心网络设计,使用任意到任意无阻塞 Clos 结构,这种功能最全的拓扑结构可有效优化 AI 训练框架。该解决方案采用基于开放标准的高性能以太网交换机和路由器,其接口速率最高可达 800 GbE。另外,它还使用 Apstra® Data Center Director 基于意图的网络软件,在规划部署到运维优化的生命周期中自动管理并验证 AI 数据中心网络。
AI 数据中心网络的关键考虑因素有哪些?
计划在数据中心网络中采用 AI 技术的组织需要考虑的关键因素:
- 评估业务需求和目标:了解在数据中心网络中采用 AI 技术的具体目标和目的。成功的定义是提高效率、安全性、节省成本或可扩展性。
- 评估当前的基础设施和准备情况:评估硬件、软件和数据架构是否已准备好进行 AI 集成。找出任何需要改进或修改的差距或领域。
- 数据质量和可用性:为 AI 模型训练和决策提供优质数据。数据治理政策提供数据完整性、安全性和合规性。
- 安全和隐私考虑因素:部署 AI 解决方案时,优先考虑网络安全和数据隐私。开发符合规范和要求的安全 AI 系统。
- AI 集成与兼容性:制定周密的集成计划,使 AI 顺利融入网络系统。考虑与传统基础设施的兼容性和未来技术的互操作性。
- 技能和培训:评估公司的 AI 技能并找出差距。帮助 IT 专业人士学习如何管理和使用 AI 驱动技术。
- 从试点项目开始:在现实环境中使用适当的试点项目测试 AI 应用。试点项目在部署之前测试 AI 系统、发现问题并改进实施策略。
- 投资回报率和成本:评估 AI 部署的投资回报 (ROI) 和总拥有成本 (TCO)。考虑基础设施、软件许可证、维护和培训成本。
- 供应商选择和合作关系:选择具有 AI 和数据中心网络能力的知名供应商和技术合作伙伴。密切合作以与公司目标保持一致并利用供应商支持有效实施。
- 监控和持续改进:使用指标和 KPI 跟踪 AI 解决方案的商业成果。通过数据驱动型评估、更新和优化来持续改进。
通过解决这些特点,企业可以在其数据中心网络中规划和实施 AI,以最大限度地提高性能、效率和安全性,同时最大限度地降低风险。