定义超级计算的未来
exaFLOPS (Rmax)
全球最快的三台经过验证的超级计算机,均由 HPE 提供支持。
液冷系统
超级计算领域的专利
凭借 Cray 数十年的技术积淀,HPE 持续引领突破性创新的潮流。
全球最先进的量子模拟运行在 HPE Cray 系统上。
量子之路,始于 HPE
适用于各种工作负载组合的解决方案
HPE Cray 产品组合提供下一代高性能计算 (HPC) 和 AI 解决方案,旨在攻克全球最复杂的挑战。
HPE Cray Supercomputing EX4000
液冷超级计算机,兼具百万兆次级性能和能效。当代领先的超级计算机,为全球超半数百强超级计算机提供支持。
HPE Cray Supercomputing GX5000
基于 Lustre® 和 DAOS 技术的高性能存储解决方案,可为 AI 和 HPC 应用提供卓越的 I/O 吞吐能力。
HPE Cray XD 系统
专为 HPC 和 AI 工作负载打造,搭载 AMD EPYC 处理器,并提供多种先进散热方案,可适用于多种工作负载。
HPE Cray 存储系统
基于 Lustre® 和 DAOS 技术的高性能存储解决方案,可为 AI 和 HPC 应用提供卓越的 I/O 吞吐能力。
HPE Cray Programming Environment
集开发、调试和性能优化于一体的工具 — 助力开发者以最小的投入实现最佳性能。
常见问题
HPE Cray Supercomputing 有何不同?
HPE Cray Supercomputing 的核心优势,是将高性能计算 (HPC) 和人工智能统一到一个紧密的架构中。与传统系统不同,它采用了 HPE Slingshot 互连技术,这种专用以太网结构,不仅能提供高速、低延迟的通信,还能通过先进的拥塞管理机制有效防止数据瓶颈。这使得系统能够在不牺牲性能的情况下,同时处理海量数据密集型 AI 工作负载和复杂的科学模拟。
这些系统专为超大规模计算而设计,具备行业领先的计算密度,并采用直接液冷 (DLC) 技术。与风冷方案相比,不仅占用的物理空间面积更小,能耗也显著降低。通过集成专门的软件堆栈与高性能存储,HPE Cray 消除了大规模计算中常见的硬件权衡问题,因此成为全球最强百万兆次级超级计算机所采用的主流架构。
使用了哪些互连技术?
HPE Cray 超级计算机采用 HPE Slingshot 互连技术,这是一种专为 AI 和科学模拟等百万兆次级工作负载设计的高性能互连架构。Slingshot 基于行业标准的以太网构建,可在保持与现有数据中心环境兼容的同时,提供高达 400 Gbps 的高带宽连接。它采用 Dragonfly 拓扑结构,最大限度地降低大规模系统延迟,并具备先进的硬件级拥塞管理和自适应路由功能,确保即使在网络流量繁重的情况下也能保持稳定的性能。
是否具备可持续性方面的优势?
HPE Cray Supercomputing 通过将高密度架构与高级散热管理相结合,展现出了显著的可持续性优势。其关键特性之一是采用直接液冷 (DLC) 技术,该技术的传热效率比风冷高出多达 100 倍。通过淘汰能耗巨大的服务器风扇,DLC 可使总能耗降低约 10%,其中冷却专用能耗最高可降低 37%。此外,这些系统产生的温水还可重新用于余热回收,为周边建筑或温室供暖,从而抵消设施的整体碳足迹。
除运营效率之外,HPE Cray 系统还有助于降低物理基础设施对环境的影响。高密度设计可将数据中心所需的占地面积减半,从而降低与建筑施工相关的隐含碳排放。组织还可利用 HPE Sustainability Insight Center 实时监控能耗与碳排放情况,同时 HPE Asset Upcycling Services 可确保退役硬件得到翻新或回收,从而支持循环经济,避免材料进入垃圾填埋场。
附带哪些软件?
HPE Cray 超级计算机配备了一套以 HPE Cray 操作系统为核心的专用软件堆栈,这是专为百万兆次级性能和极高稳定性而设计的强化版 SUSE® Linux®。该系统还配备了 HPE Cray System Management 套件,该套件可通过统一的云原生管理框架,提供配置、监控和维护数千个节点及高速互连所需的自动化功能。
该平台还开发了针对开发人员的 HPE Cray Programming Environment (CPE),这是一套针对 C、C++ 和 Fortran 语言优化的综合性套件,涵盖编译器、科学库和性能分析工具。该平台通过集成 Slurm 或 PBS Professional 等行业标准工作负载管理器以及 MPI 等高性能通信库,能够为 AI 和高性能计算 (HPC) 工作负载的无缝扩展提供强大支持,从而确保在 CPU 和 GPU 加速器上都能达到最高效率。
支持服务如何提供?
对于 HPE Cray EX 这类大规模部署,HPE Complete Care 提供个性化的模块化服务,并配备专属客户团队来管理整个基础设施,以最大限度地延长系统正常运行时间。为实现无缝部署,HPE 提供 HPE Cray 超级计算机启动服务,该服务将指派一名专职 HPC 安装项目经理全程监督实施过程。该服务包括安装前验证与现场专家支持,以确保从液冷歧管到高速互连的所有组件都能正确配置。
如何开始部署?
要开始部署 HPE Cray 超级计算机,组织必须首先完成场地准备,确保设施能够满足所需的电力负荷、冷却要求及地板承重能力要求。此过程由 HPE Cray 超级计算机启动服务提供指导,该服务会指派一名专职 HPC 安装项目经理,负责监督从出厂集成到现场部署的整个过渡过程。该服务交付经理将协调完成物理安装工作,包括开箱、机架定位和通电验证,以确保在硬件到达之前满足所有环境前提条件。
物理基础设施就位后,部署进程将转向 HPE Cray System Management (CSM) 框架与 HPE Cray Programming Environment (CPE) 的初始化工作。随后管理员将使用安装与升级框架 (IUF) 等工具来配置操作系统、设置优化的编译器和库,并集成 Slurm 或 PBS Professional 等工作负载管理器。这种结构化方法可确保高速互连和管理服务得到全面调优,进而为生产级 HPC 和 AI 工作负载做好充分准备。
“Cray”之名从何而来?
Cray 这一名称源自 Seymour Cray,这位富有远见的电气工程师常被誉为“超级计算之父”。在 CDC 公司开创了早期高速系统之后,他于 1972 年创立了 Cray Research。他的设计,尤其是标志性的 C 形 Cray-1,确立了全球计算处理能力的标准,并使该品牌在数十年来始终稳居行业领先地位。
HPE(慧与)于 2019 年完成了对 Cray Inc.的收购,故现如今,Cray 已成为 HPE 旗下的超级计算解决方案品牌。该品牌至今仍代表着计算技术的尖端水平,持续为全球首批用于复杂科学研究、气象预报和国家安全的百万兆次级超级计算机提供算力支撑。
HPE 为传承 Cray 的品牌成就做了哪些努力?
自 2019 年收购 Cray Inc. 以来,HPE 一直将 HPE Cray 视作超级计算的旗舰品牌,以此延续 Seymour Cray 的品牌辉煌。HPE 在最先进的系统中保留 Cray 品牌名称,既致敬了该品牌悠久的创新历史,也将 Cray 的专业工程人才与专有技术(如 Slingshot 互连技术和高密度液冷技术)整合进了自身的核心产品组合。
正是这份传承促成了全球首批百万兆次级超级计算机的成功问世,其中包括 El Capitan 和 Frontier 系统。通过将 Cray 的架构理念发展为适应当代 AI 与数据科学的需求,HPE 让这一名称成为科学探索和国家安全技术领域尖端创新的代名词。
哪些 HPE Cray 系统在行业中处于领先地位?
- El Capitan:目前全球排名第一的超级计算机,位于劳伦斯利弗莫尔国家实验室。该系统于 2025 年底创下 1.809 百亿亿次浮点运算的性能纪录,是首款同时在 TOP500 与 HPCG 性能排名中占据榜首的系统。
- Frontier:全球首台经过验证的百万兆次级系统,目前位列全球第二。该系统托管于橡树岭国家实验室,性能高达 1.353 百亿亿次浮点运算,同时仍是业内最环保的系统之一。
- Aurora:全球排名第三的百万兆次级系统,位于阿贡国家实验室,采用 HPE Cray EX 英特尔百万兆次级计算刀片构建而成,性能达 1.012 百亿亿次浮点运算。
- LUMI:位于芬兰的 LUMI 是世界上最强大、最节能的“AI 工厂”之一。作为 HPE Cray EX 系统,LUMI 已成为欧洲科研与创新的重要枢纽。
为何选择 HPE Cray 而非其他超级计算品牌?
HPE Cray 的主要优势在于其专用架构,旨在消除标准集群中的瓶颈问题。许多竞争对手依赖通用网络,而 HPE Cray 则采用了 Slingshot 互连技术,可提供高速且具备拥塞控制能力的数据传输。这使得成千上万个处理器能够像一台统一的机器一样协同工作,且不会出现速度下降的情况,因此对于超出传统硬件承载能力的大规模 AI 模型训练和复杂科学模拟而言,HPE Cray 无疑是不二之选。
此外,HPE Cray 系统借助先进的直接液冷技术,在能效和计算密度方面也处于行业领先地位。通过使用液体而非风扇对每个组件进行冷却,这些系统可在降低功耗和占地空间的同时,确保 CPU 和 GPU 发挥最佳性能。这种面向百万兆次级计算的工程设计,正是驱动全球最快超级计算机的同一技术,为那些致力于攻克最严苛数据密集型挑战的组织提供了一个经过验证的可靠环境。
HPE Cray Supercomputing 服务的独特优势是什么?
HPE Cray 服务提供全面的总包式体验,消除了管理百万兆次级硬件的复杂性。不同于标准 IT 支持,这些服务由精通大规模并行处理与高密度液冷技术细节的专业专家团队提供。从初始安装到 7x24 小时全天候运维监控,支持团队可确保这些大型系统始终保持优化状态,以尽可能延长正常运行时间,使组织能够专注于攻克重大挑战性难题,而无需自行管理每一处繁琐的硬件细节。
除物理维护外,该服务体验还包括一套专为提高研究人员工作效率而设计的专用软件堆栈。诸如 HPE Cray Programming Environment 和高级管理软件等工具,可自动进行系统配置并优化数据流,从而确保系统噪音不会干扰复杂计算。这种将 AI 驱动型监控与深厚的领域专业知识相结合的主动式方法,可确保架构始终保持峰值效率,让用户能够专注于科学探索和模型训练,而非故障排除。
为何 HPE 要持续投资于超级计算创新?
通用型服务器是为常规任务设计的,当试图将其进行扩展以处理全球最复杂的问题时,便会出现性能瓶颈。随着工作负载向百万兆次级计算和大规模 AI 模型训练训练发展,标准硬件难以应对数据传输瓶颈 — 由于网络无法快速向处理器提供信息,导致处理器处于闲置状态。HPE 的持续创新(如 Slingshot 互连技术)之所以不可或缺,正是因其消除了这些通信障碍,使数千个节点能够作为一台统一的机器协同工作,从而在数小时内解决原本需要数十年的难题。
另外,随着计算需求的增长,创新对于实现可持续性并提高计算密度至关重要。传统风冷服务器需要消耗大量能源来进行机房级制冷,而这对于会产生极高热量的高性能芯片而言,其制冷效率会日益低下。通过开创性采用直接液冷技术 — 其能效最高可达风冷的 100 倍 — HPE 得以提升计算密度并大幅降低能耗。凭借这项专业工程技术,组织得以在药物研发、气候建模等领域实现突破性进展;但若使用标准通用服务器集群,无论从经济还是环境角度看,这些突破都注定无法实现。