阅读时长:4 分钟 | 发布日期:2025 年 3 月 3 日

AI 超级计算
什么是 AI 超级计算?

AI 超级计算是指组织使用由数十万台强大机器组成的超快处理器,其利用人工智能 (AI) 模型管理和分析处理大量数据。

在服务器机房中使用计算机的技术人员。
  • AI 超级计算机如何运作?
  • AI 超级计算和分析工作负载
  • AI 超级计算机示例
  • HPE 和 AI 超级计算
AI 超级计算机如何运作?

AI 超级计算机如何运作?

AI 超级计算机通常由经过精心调优的硬件组成,其中包括数十万个处理器、专用网络和大量存储空间。

这些超级计算机将工作负载划分给不同处理器,这样每个处理器只需承担一小部分工作。由于每个处理器负责各自的部分,相互之间往往会非常频繁地通信。每个处理器通过通信网格发送消息,这样信息就可以在多个维度上进行交换;根据问题的不同,可以进行上、下、左、右、前、后等不同方向的交换。这种多维度进程有助于工作负载更好地相互调优,从而提高处理速度。

令人惊讶的是,AI 超级计算机运行的操作系统相当普通,其使用 Linux 软件来运行应用、网络以及执行调度。运行的分析程序通常用 C 或 Fortran 编写,并通过名为 MPI 的通信库在多台机器间传递消息。

由于电路板上密集地放置了较小的电路,AI 超级计算机可以更快地运行,但运行温度也会随之升高。这是因为目前将足够的电力输入和输出芯片的效率还不够高,导致芯片过热。然而,当数十万个这样的多核节点一起工作时,超级计算机的散热需求相当高。为缓解此问题,采用铜线制造电路,因为铜线能以非常高的功率密度传输能量。超级计算机还使用强制空气散热,并在整个系统中循环传送制冷剂。

AI 超级计算和分析工作负载

AI 超级计算如何管理分析工作负载?

AI 超级计算机之所以能够管理复杂的分析工作负载,有很多原因。

节点
AI 超级计算机拥有多个 CPU,计算速度极快。这些 CPU 或节点中有 10 到 12 个核心来执行任务。由于超级计算机通常在其架构内聚集数千个节点,这意味着每千个节点中有 12,000 个核心在工作。因此,如果一台超级计算机只有 1000 个节点,那么它的工作性能就达到每秒数万亿次循环。

电路
超级计算机的电路设计拥有非常细小的电线连接,这种电路板相较于传统计算机电路板,电力容量更大。这两大技术进步使得复杂的算术和逻辑运算能够按顺序解析和执行。

处理
此外,超级计算机通过使用并行处理,可同时运行多个工作负载。具体而言,由于系统同时处理数千个任务,在几毫秒内便可完成工作。AI 超级计算机使各行各业能够训练规模更大、更出色、更准确的模型。因为精确度更高,团队可更快地分析信息,将关键结论引入流程,开发更多的资源,并测试更多的场景——所有这些都将加速行业的进步。

AI 超级计算机示例

AI 超级计算机示例

NVIDIA DGX SuperPOD:这是 NVIDIA 设计的一款高性能 AI 超级计算机。它由多个 NVIDIA DGX 系统互连组成,为 AI 研发提供卓越的计算能力。DGX SuperPOD 用于训练大规模 AI 模型、执行复杂的模拟以及加速各种深度学习任务。

Summit:Summit 由 IBM 和 HPE 联合开发,位于美国橡树岭国家实验室,是世界上速度最快的超级计算机之一。它将 AI 功能与高性能计算 (HPC) 相结合,以加速科学研究。Summit 使用 IBM POWER9 CPU 和 NVIDIA Tesla V100 GPU,因而能够高效地处理深度学习和数据分析等 AI 工作负载。

Fugaku:Fugaku 是由 RIKEN 和 Fujitsu 开发的日本超级计算机。该计算机位于 RIKEN 计算科学中心,被公认为全球最快的超级计算机之一。Fugaku 旨在处理多种应用,包括 AI 和机器学习。它的架构使其能够高速执行图像识别、自然语言处理和其他 AI 驱动型模拟等任务。

这些 AI 超级计算机因其强大的计算能力,对于从科学研究到工业应用等各个领域的进步至关重要。

HPE 和 AI 超级计算

HPE 和 AI 超级计算

HPE 提供的 HPC/AI 解决方案能够助您应对多种工作负载和规模需求。我们的解决方案是一套全面的模块化软件产品组合,针对 HPC/AI 工作负载进行了优化,能够提供规模化的应用性能,同时具备所需的密度和可靠性,以支持高性能 CPU 和 GPU。

此外,HPE 还提供专为大规模部署设计的 HPC 硬件。这些经过完全集成的硬件支持任何规模的部署,而且具备高级冷却选项,适用于高密度平台。

HPE Cray 超级计算机提供了全新的超级计算方法,具有多项变革性功能。这种计算机的架构设计支持选择基础设施,能够为数万至数十万节点提供最优解决方案。高密度的八路 GPU 服务器,提供一致、可预测且可靠的性能,确保能够高效处理大规模工作流程。Slingshot 互连技术和 Cray 软件提供了类似云的用户体验,同时还通过 HPE Performance Cluster Manager 执行全面的系统管理。

相关产品、解决方案或服务

超级计算

在百万兆次级时代及未来,推动创新和探索,进而改变世界

相关主题

人工智能 (AI)

超级计算

机器学习