好奇心激发的超级计算之旅
Cray 超级计算机的历史。
突破极限
这个传奇始于一个人的远见卓识。西摩·克雷将计算机设计视为一种艺术并对它充满热爱。他热衷于搞定电路和电线中日益加快的数据速度带来的挑战,并以此为乐。他喜欢简单而优雅地完成一切工作。
克雷先生于 1972 年成立了 Cray Research,以探索新的方法,实现他关于世界上最快的计算系统的宏伟构想。他遇到过似乎不可能的事,但他耸耸肩,然后继续攻克。
在此宏伟构想指引下,一小组工程师努力工作,Cray 最终制造出 Cray-1 超级计算机。Cray-1 是工程学的杰作,改写了从处理到冷却再到封装的计算技术,并将一家公司和一个行业永久地载入史册。
从 Cray-1 到 HPE Cray
Cray Research 最初的任务是制造业界最快的计算机并引领大规模科学计算。但是当该公司看到这些系统可以完成的工作时,任务随之发生了变化。从之前简单的提高速度扩展到更广泛的担当,包括帮助解决科学和工业问题,使世界更安全、更健康、更智能。
慧与参与了这个始于西摩·克雷的宏伟构想。慧与于 2019 年收购了 Cray,与其一同开启了强劲且持续的超级计算之旅的新篇章。
20 世纪 70 年代到 80 年代:Gigaflops 和砷化镓的革命
Cray-1(1976 年)
第一位客户:洛斯阿拉莫斯国家实验室(如图)
趣闻:从 1976 年到 1982 年,Cray-1 是世界上最快的超级计算机。它宽 8½ 英尺,高 6½ 英尺,内含 60 英里长电线。
技术评述:在小尺寸的圆柱形中,Cray Research 采用 100 万字的半导体存储器、64 位字长、优化的 Fortran 编译器以及一种称为“链接”的技术,使 Cray-1 实现了破纪录的 1.6 亿次浮点运算/秒的性能。
Cray X-MP(1982 年)
第一位客户:Digital Productions
趣闻:电影公司 Digital Productions 使用其 Cray X-MP 系统为经典电影《最后的星际战士》制作图像,这是最早使用计算机生成图像的电影之一。
技术评述:Cray 开始使用 X-MP 系统进行并行处理。它具有两个共享内存并行矢量处理器,时钟周期为 9.5 纳秒。Cray 生产了 11 种不同版本的 X-MP,最快速度曾达到每秒 9.41 亿次浮点计算。
Cray-2(1985 年)
第一位客户:国家磁聚能计算机中心
趣闻:Cray-2 超级计算机的昵称是“泡泡”。该系统是有史以来第一个使用液体浸没冷却的系统,其电路的运行温度高到使液体沸腾。因此,西摩·克雷将其完全展示出来,可以通过玻璃面板看到沸腾的液体。
技术评述:Cray-2 采用四处理器矢量架构,具有 2.56 亿个 64 位内存(所有计算机上可用的最大中央内存)和 4.1 纳秒的时钟速度。它的峰值速度达到每秒 19 亿次浮点运算。
Cray Y-MP(1988 年)
第一位客户:NASA Ames 研究中心
趣闻:Cray Y-MP 超级计算机在 1992 年的电影《通天神偷》中客串了一把。在该电影中,主角本·金斯利和罗伯特·雷德福坐在 Y-MP 上,讨论如何改变世界。
技术评述:Cray Y-MP 是世界上首台能保持超过每秒 10 亿次速度的超级计算机。作为 X-MP 的后续产品,其初始系统具有八个并行矢量处理器、更密集的电路和更大的中央内存。Y-MP 的峰值速度达到每秒 26.7 亿次浮点运算。
20 世纪 90 年代到 21 世纪初:变革和增长
Cray C90(1991 年)
第一位客户:欧洲中期天气预报中心
趣闻:福特汽车公司是 Cray C90 系统的第一个商业客户。
技术评述:这个并行向量系统最初命名为 Cray Y-MP C90 超级计算机,它具有 16 个新型 CPU,每个 CPU 的速度都可达到每秒 10 亿次浮点运算,还有 2 GB 的中央内存。它的运行速度可达 Cray 之前最好产品的 5 倍。其最重要的架构特征之一是双矢量管道,允许每个 CPU 在每个时钟周期为每个功能单元提供两个向量结果。
Cray Y-MP EL(1991 年)
客户数据:仅在第一年就收获了 55 个系统的订单
趣闻:Cray Y-MP EL 系统是 Cray Research 出售给金融服务行业和东欧地区的第一台超级计算机。
技术评述:Y-MP EL 超级计算机降低了客户的入门成本。它最多可以配置四个处理器和 1042 兆内存。它采用风冷,结构紧凑且易于供电。凭借平衡的内存和 I/O 带宽,Y-MP EL 提供了其价格水平下的最高吞吐性能。后来它被开发为 EL90 系列。
Cray M90(1992 年)
第一位客户:AT&T 贝尔实验室
趣闻:Cray M90 超级计算机的存储容量是原始 Y-MP 系统的 125 倍。
技术评述:Cray M90 超级计算机系列(最初称为 Y-MP M90)是 Cray Y-MP 系统的大内存变体。它采用 DRAM 技术实现,具有两个、四个或八个处理器配置,最多可存储 40 亿个字。它使用户能够解决巨型问题,而不必将其分解并单独运行。
Cray T3D(1993 年)
第一位客户:匹兹堡超级计算中心
趣闻:喷气推进实验室的 NASA 任务计划人员使用 T3D 系统来探索航天器在火星上着陆的最佳位置。
技术评述:Cray T3D 超级计算机是 Cray 的第一个大规模并行处理系统,也是世界上第一个可扩展的异构系统。它的设计、开发、制造和交付仅用了 26 个月。T3D 将 Digital Equipment Corporation 生产的大规模并行微处理器阵列连接到 Cray 设计的矢量处理器,数量从 32 到 2084 个处理器不等。
Cray J90(1994 年)
客户数据:公告前获得了 37 个预购订单
趣闻:J90 系列是 Cray 有史以来销售最快的产品,第一年售出了 170 多个系统,其中 40% 的买家是首次购买 Cray 产品。
技术评述:J90 系列是可扩展的低成本系统,具有 8 个、16 个和 32 个处理器配置。通过降低 CPU 的复杂性并使用低成本且高速的先进 CMOS(互补金属氧化物半导体芯片),其带宽达到竞品系统的 10 至 20 倍,并具有更好的性价比。该系统的起始售价为 22.5 万美元。
Cray T90(1995 年)
客户数据:公告前已获得八份预购订单
趣闻:T90 系统是世界上第一款无线超级计算机。Cray 使用将处理器模块连接到内存的开创性设备,消除了所有内部布线。(作为比较,最大的 C90 系统有 36 英里长电线。)
技术评述:并行矢量处理 Cray T90 系列是 C90 系列的后继产品,可使用 1 到 32 个处理器,运算性能最高可达每秒 600 亿次。它用电激活的零插入力 (eZIF) 连接器代替了互连线,每个连接器有 400 个信号触点。
Cray T3E(1995 年)
第一位客户:匹兹堡超级计算中心
趣闻:Cray T3E 是世界上第一台能够在实际应用中维持每秒 1 万亿次浮点运算速度的超级计算机。到 1997 年,T3E 系统占据了世界顶级超级计算机榜单前 20 名中的 14 席。
技术评述:在从数十个处理器扩展到数千个处理器方面,T3E 的效率和成本效益无与伦比。与众不同的是,该系统的每个部分都随处理器数量一同扩展——处理器间通信、操作系统,I/O 和内存。
Cray SV1 系列(1998 年)
第一位客户:Alabama Supercomputer Authority
趣闻:福特汽车公司购买了五台 Cray SV1 超级计算机,成为该系统的头号客户。
技术评述:SV1 可扩展矢量系统具有峰值性能为每秒 40 亿次浮点运算的处理器、峰值性能最高可达每秒 320 亿次浮点运算的单机柜节点,以及结合起来可使超级计算机速度达到每秒 1 万亿次浮点运算的系统群集工具。它引入了多种创新技术,例如世界上第一个矢量高速缓存。在性价比方面,它远胜竞争对手 8 倍。
Cray X1/X1E(2002 年)
第一位客户:美国国防部
趣闻:Cray® X1 处理器的运行温度如此之高,工程师们创新了一种蒸发式喷雾技术来防止模块过热。
技术评述:Cray X1 系统将矢量系统的处理器性能与大规模并行处理技术的可扩展性融合在一起,这是长期以来无法实现的壮举。高性能互连和内存子系统使 X1 系统可扩展至 4,096 个处理器,峰值性能达到每秒 50 万亿次浮点运算。X1E 是一项重大升级,将峰值性能和计算密度提高了三倍。
Cray XT 系列(2004 年)
第一位客户:桑迪亚国家实验室
趣闻:Cray 凭借橡树岭国家实验室的 XT5“Jaguar”系统(如图)突破了每秒千万亿次浮点运算的壁垒。Jaguar 拥有 200 个机柜、224,256 个处理核心,其每秒 1759 万亿次的浮点运算速度是 2009 年至 2010 年间全球的最快速度。
技术评述:Cray 与桑迪亚国家实验室合作开发了构建 Cray®XT™ 系列的技术。大规模并行 XT 使用了 Cray 设计的互连技术,采用风冷,可以从单个机柜扩展到数百个。
Cray XMT(2006 年)
第一位客户:美国太平洋西北国家实验室 (PNNL)
趣闻:佐治亚州理工学院的研究人员使用 PNNL 的 Cray® XMT™ 系统确定了 2009 年 Twitter 最具影响力的用户。该机器在一小时内浏览了大约 1800 万位用户一天的推文。
技术评述:Cray XMT 系统是可扩展的大规模多线程平台,具有共享内存架构,非常适于大规模数据分析和数据挖掘。该设计基于 Cray XT 计算刀片,但使用了定制的 Cray Threadstorm 芯片。一个 Threadstorm 处理器可以同时支持 128 个线程。
21 世纪 10 年代:驾驭大数据
Cray XE6(2010 年)
客户数据:瑞士国家超级计算中心 (CSCS) 获得了第一个 Beta 系统。
趣闻:使用 CSCS 的 Cray® XE6™ 系统的科学家解决了一个已困惑人们 300 年的谜题,它就是为何地球磁场不断向西移动。提示:这是核心。
技术评述:XE6 超级计算机采用了 XT 系列的基础架构,并结合了多核 AMD 处理器和突破性的 Cray Gemini 互连技术。Gemini 提供了极高的消息传递速率并大大改善了延迟。XE6 可以扩展到超过一百万个处理器核心,速度可以超过每秒万万亿次浮点运算。
Cray XK 系列(2011 年)
第一位客户:瑞士国家超级计算中心
趣闻:橡树岭国家实验室的 Cray® XK™ 系统“Titan”(如图)荣登 2012 年全球最快系统榜单。在接下来的七年中,它一直位居前十名。2019 年,ORNL 将一个 Cray® Shasta™ 系统“Frontier”命名为 Titan 的继任者。
技术评述:Cray XK 系列结合了 Gemini 互连、AMD 多核标量处理器和 NVIDIA 多核 GPU,打造了真正的混合超级计算机。该系统能够扩展到 500,000 个处理器,速度超过每秒 3 万万亿次浮点运算。
Cray XC 系列(2012 年)
第一位客户:斯图加特高性能计算中心(如图)
趣闻:XC50 超级计算机于 2016 年推出,可在单个机柜中提供每秒 1 千万亿次浮点运算的峰值性能。相比之下,第一个突破千万亿次级速度壁垒的 Cray 系统拥有 200 个机柜。
技术评述:Cray® XC™ 系统经过扩展后速度可达每秒 50 万万亿次浮点运算,它将标量处理、协同处理和加速器技术合并在单台高度可扩展机器中。它还引入了在所有指标方面都有重大改进的 Aries 互连,解决了提供经济可行且可扩展的全球带宽的难题。
Cray Urika 平台(2012 年)
客户数据:有多家客户在早期采用了第一款 Cray® Urika® 产品,包括系统生物学研究所、梅奥医学中心、Noblis 和瑞士国家超级计算中心。
趣闻:Urika 最初的拼写是 uRiKA。它代表“通用 RDF 集成知识设备”。
技术评述:第一个 Urika 产品是为一种基于图形的大数据关系分析方法构建的。它使用了 Cray Threadstorm 大规模多线程处理器和大型共享内存架构。后来称为 Urika-GD,它又加入了 Urika-XA 极限分析和 Urika-GX 敏捷分析平台。
Cray CS 系列(2013 年)
客户数据:铁路技术研究院是 CS 系列的第一个公开宣布的客户。
趣闻:Shadow、Ollie、BeBop 和 Nurion 有什么共同点? 提示:它们可不是宠物犬。他们是少数进入 TOP500 超级计算机榜单的 CS 系列系统。Nurion 在 2018 年一路高升至第 11 位。
技术评述:Cray® CS™ 系列群集超级计算机采用了最新的处理、网络和冷却技术,同时还针对计算、数据和混合工作负载进行了高度定制。该系列的最终迭代 CS500 系统可以扩展到速度超过每秒 6 万万亿次浮点运算。
Cray CS-Storm(2014 年)
第一位客户:美国政府
趣闻:当 Cray® CS-Storm™ 系统于 2014 年推出时,它是世界上密度最高的 GPU 系统。
技术评述:CS-Storm 超级计算机基于 CS 系列架构,是为 GPU 加速工作负载构建的。单个高密度机架可提供最高每秒 980 万亿次浮点运算的双精度性能。该系统非常适合加速计算工作负载,例如机器学习和深度学习、油藏模拟和地理空间智能。
HPE Cray EX(2018 年)
第一位客户:阿贡国家实验室
趣闻:百万兆次级 HPE Cray 超级计算机比 Cray-1 快 60 亿倍。
技术评述:HPE Cray 超级计算机专为百万兆次级时代的工作负载而设计。它支持多种处理器技术,支持聚合工作负载,消除了超级计算机和群集之间的区别,并将 HPC 和 AI 工作负载与云的生产力融合在一起。这款超级计算机的核心是革命性的 HPE Slingshot 互连技术。美国的前三个百万兆次级超级计算机都采用了 HPE Cray 系统。