第4世代地球シミュレータの汎用計算ノードを支える水冷サーバー

国立研究開発法人海洋研究開発機構(JAMSTEC) 様

横浜研究所 所在地:神奈川県横浜市金沢区昭和町3173番25
URL:http://www.jamstec.go.jp/j/

画像をタップして拡大する

AMD EPYC™プロセッサー搭載、HPE Apollo 2000 Gen10 Plus Systemを採用し水冷による720ノードの高性能クラスターシステムを構築

2021年3月、国立研究開発法人海洋研究開発機構(JAMSTEC)が「第4世代地球シミュレータ」の運用を開始した。従来の14.9倍となる19.5PFLOPSの総理論演算性能を発揮する同機は、ベクトル、スカラー、GPU計算機を統合した「マルチアーキテクチャー型スーパーコンピューター」へと進化を遂げている。スカラー型計算機には、AMD EPYC™プロセッサーを2CPU/計128コアを搭載するHPE Apollo 2000 Gen10 Plus Systemが720ノード導入された。注目すべきは、CPU/メモリを効果的に冷却し安定的に高い性能を発揮させる水冷システム「HPE Apollo Direct Liquid Cooling」の採用である。

業種

研究機関

 

ビジョン

海洋地球科学分野における研究開発基盤となる「第4世代地球シミュレータ(ES4)」の構築

 

戦略

ベクトル、スカラー、GPU計算機を統合・連携させる「マルチアーキテクチャー型スーパーコンピューター」の実現

 

成果

・第2世代AMD EPYC™プロセッサーを全面的に採用し、ES4システム全体で従来の14.9倍の総理論演算性能、同等の消費電力、設置面積の半減を実現

・スカラー機にHPE Apollo Direct Liquid Coolingを採用し高い性能を安定的に提供可能に

・NVIDIA A100搭載のGPUサーバーに世界初となる256GB DDR4-3200メモリを提供

ご導入製品

HPE Apollo 2000 Gen10 Plus System

HPE Apollo 6500 Gen10 Plus System

HPE Apollo Direct Liquid Cooling


我が国の海洋と地球科学における研究開発を担う

 

国立研究開発法人海洋研究開発機構(JAMSTEC)が運用する「地球シミュレータ(Earth Simulator)」が第4世代(ES4)へと進化を遂げた。システム全体の総演算性能は従来の14.9倍となる19.5PFLOPSを達成。中核となる高速計算ノード(ベクトル機)は理論演算性能14.97PFLOPSに達し、HPC性能ランキングのTOP500では39位*にランクインしている。地球情報基盤センター計算機システム技術運用グループを率いる上原均氏は次のように話す。

「JAMSTECは2021年10月1日に創立50周年を迎えます。この節目に登場したES4は、我が国の海洋と地球科学に関する研究開発を大きく前進させる基盤として重要なミッションを担っていきます。地球環境、海洋資源、海域地震、火山活動などを研究対象とするより大規模なデータ、モデルを扱えるようになり、より高精度の数値解析をより高速に実行可能になります」

地球規模のシミュレーションを実現するスーパーコンピューターとして2002年に登場した地球シミュレータは、当時「桁違いの演算性能」(上原氏)で世界中を驚かせた。以来、JAMSTEC内外の研究者の要求を採り入れながら着実に進化し続けてきた。

「ES4の導入コンセプトは『従来研究の発展と新規研究の実現の両立』であり、多様化する研究ニーズに応え、より高度な学術的知見の獲得と、防災に代表される社会実装を視野に入れた価値の創造を目指します。この目標を達成するために、ES4では、高速計算ノード、汎用計算ノード、高効率学習用ノードを統合したマルチアーキテクチャーを初めて導入することにしました」(上原氏)

世界屈指のベクトル型スパコンとして運用されてきた地球シミュレータでは、長年にわたって磨き上げられてきた膨大なソフトウェア資産がある。100万行を超える大規模プログラムも多い。

「ES4は、地球シミュレータを利用してきた研究者の取り組みをさらに発展させるとともに、世界の研究者と協力する大規模プロジェクトや、AIを活用する新しい領域のチャレンジにも応える研究開発プラットフォームとして誕生しました。より柔軟な運用が可能で、より幅広い要件に適応可能です。調査・観測から得られたデータを活用し、高度なシミュレーションモデルやAIを駆使して新たな知見を導くJAMSTECならではの研究をさらに加速させることができるでしょう」と上原氏は力を込める。

マルチアーキテクチャー型スーパーコンピューター

 

JAMSTECが策定した仕様・要件に基づいた一般競争入札(総合評価方式)において落札したのは、長年にわたり地球シミュレータを支え続けているNECである。NECは高速計算ノードで自社のベクトルプロセッサを中核とし、汎用計算ノードと高効率学習用ノードにはHPE製品を採用する提案を行った。

ES4の中核をなす主計算装置は大きく次の3つに区分される。また、すべてのノードは200Gb/sのInfiniBand HDRで結ばれ、総容量61.3Pバイトのストレージを共有する。

高速計算ノード(ベクトル機):684ノード、AMD EPYC 7742(43,776CPUコア)、NECベクトルエンジンType 20B(5,472ベクトルエンジン)

汎用計算ノード(スカラー機):720ノード、AMD EPYC 7742(92,160CPUコア)

高効率学習用ノード(GPU機):8ノード、AMD EPYC 7742(1,024CPUコア)、NVIDIA A100(64GPU)

「それぞれ単体のシステムとして利用できることはもちろん、スカラー機で前処理を行いベクトル型で大規模なシミュレーションを実行したり、ベクトル機やスカラー機による数値計算とGPU機によるディープラーニングを連携させるような運用も考慮されています」と計算機システム技術運用グループグループリーダー代理大倉悟氏は話す。

ES4のマルチアーキテクチャーを特徴づけるベクトル、スカラー、GPUすべての計算ノードに、64コアの「第2世代AMD EPYC™プロセッサー」が採用されていることに注目したい。

「現時点で最もコストパフォーマンスの高いCPUを提案してもらえたと考えています。AMD EPYC™プロセッサーは、1ソケットあたりのコア数でも、メモリへの高速アクセスにおいても優位性があります。また、ES4のCPUを統一することで、すべてのノードを単一のスカラー機として利用するような柔軟な運用も可能になりました」(大倉氏)

7nmプロセスルールを採用した「第2世代AMD EPYC™プロセッサー」は、業界最大となる1ソケットあたり64コア/128スレッドを実現している。128レーンのPCIe Gen4のサポートに加え、DDR4-3200メモリに対し1ソケットあたり8チャネルで接続し204GB/sというメモリ帯域を利用可能だ。これらの強みを活かしてHPC領域で急速に実績を拡大している。

水冷システムHPE Apollo Direct Liquid Coolingを採用

 

ES4の汎用計算ノード(スカラー機)には「HPE Apollo 2000 Gen10 Plus System」が採用された。2Uのシャーシに2CPUサーバーを4ノード収容できる高密度型システムである。これによりスカラー機は、全720ノード/計92,160コアをわずか12ラックに凝縮させている。

「発熱量の大きいCPUとメモリを効率よく冷却し、安定的に高い性能を発揮させるために、『水冷システム』を組み合わせた提案を受けました。HPEの水冷テクノロジーは、大規模サーバーシステムの設置面積と消費電力を抑える効果が期待でき、コンパクトで導入しやすいソリューションとして評価できるものでした」と大倉氏は話す。

採用された水冷システムは「HPE Apollo Direct Liquid Cooling(DLC)」である。サーバー内部にヒートパイプを通して冷却水を循環させ、コンパクトな冷却プレートが熱源であるCPUとメモリをダイレクトに冷やす。JAMSTECデータセンターが備えるチラー、サーバーラック内の冷却水循環装置(CDU:Cooling Distribution Unit)、サーバー内の冷却ユニットのクローズドループで冷却水を循環させる仕組みだ。HPEでは、HPE Apollo DLCにより「サーバー排熱の最大80%を冷却できる」としている。

HPE Apollo DLCが組み込まれたHPE Apollo 2000 Gen10 Plus Systemは、米HPEの製造拠点でのインテグレーションとテストを経て空輸された。
「CDUとサーバーが標準ラックに組み込まれた状態で納入されたため導入はスムーズでした。既存の水冷設備、空調設備を共に活用できることも、私たちの要件に合ったものでした」(大倉氏)

HPEの水冷テクノロジーは、HPE Apollo DLCをはじめ、より手軽に導入できる水冷ラックソリューション、水冷テクノロジー一体型HPCシステムまで幅広い。HPEの強みは、HPCシステム向けの業界随一の水冷テクノロジーポートフォリオと、CRAY/SGIから継承した水冷システム設計・導入・運用までトータルの充実したサービス体制にある。HPEの水冷システムにおける技術力の高さ・確かさは、圧倒的な導入実績で証明されている。

一方、ES4の高効率学習用ノード(GPU機)に採用されたのは、計8台の「HPE Apollo 6500 Gen10 Plus System」である。第2世代AMD EPYC™プロセッサー(2CPU/128コア)と最新のNVIDIA A100 TensorコアGPUを8基搭載する高性能GPUサーバーだ。本機の大きな特徴は4TBという大容量メモリの搭載にある。地球情報基盤センター計算機システム技術運用グループの石黒駿氏は次のように話す。

「ディープラーニングによる学習モデル構築を効率よく行うために、どのような要件を定義すべきかAI研究者と徹底的に議論しました。私たちが導き出した答えは、メモリ上に大規模な学習データを展開してストレージI/Oを極力減らし、GPUの性能を最大まで引き出すという方針でした」

この要求に応えたのは、エンタープライズ向けとしてHPEが世界で初めて提供した「256GB DDR4-3200メモリ」である。HPE Apollo 6500 Gen10 Plus System上で4TBという巨大なメモリ空間を実現するとともに、第2世代AMD EPYC™プロセッサーの広いメモリ帯域を活かした高速アクセスでディープラーニングの学習効率を高めることができる。

本当に重要なのは研究を支えるアプリケーション性能

 

2021年3月に運用を開始した第4世代地球シミュレータ(ES4)は、研究者の期待を上回る高い性能を発揮しているという。システム全体の理論的総合性能は14.9倍にまで高められたが、JAMSTECが「本当に重視したのはアプリケーション性能」(上原氏)である。

「選定に際しては、理論性能の評価に加えベンチマークプログラムによる性能評価を実施しました。従来研究で活用されてきたアプリケーションに加え、これまで地球シミュレータでは利用していなかったアプリケーションも評価の対象に加えています。これは、多様な研究テーマにより柔軟に応えていく、というES4導入にあたっての基本方針に沿ったものです」(上原氏)

応札時のベクトル機のベンチマークテストはNECが、スカラー機のテストはNECとHPEが共同で担当した。HPEでは、日本法人のHPCベンチマークエキスパートチームが、米HPEグローバルベンチマークセンター(GBC)と連携し、最大のパフォーマンスを引き出した。HPEが米・仏・豪に展開するGBCは、世界最大規模のHPC検証センター環境として知られる。ベンチマークやPoC(概念実証)は、科学分野ごとに高い専門性と豊富な経験を持つエキスパートが担当。GBCを利用することで最適なシステム構成とパフォーマンス最大化を確実に手にすることができる。

「スカラー機のアプリケーション性能は期待以上と言っていいでしょう。ベンチマーク性能も良好でしたし、運用開始後に利用した研究者からも高い評価を受けています。」(上原氏)

計算機システム技術運用グループ技術主任の今任嘉幸氏は次のように続ける。

「計算環境の選択肢の幅が広がりを活かし、ベクトル、スカラー、GPU機を適材適所で使い分けるような運用を目指します。研究者のニーズや課題を聞きながら最適な計算リソースと活用方法をアドバイスする役割は、これまで以上に重要になっていますので大きなやりがいを感じています」

ベクトル、スカラー、GPU計算機を統合し、マルチアーキテクチャー型スーパーコンピューターとして生まれ変わったES4は、JAMSTECの海洋と地球科学に関する学術的成果の追求、社会実装可能な知見の獲得、産業界のイノベーションへの貢献というミッションを加速させていくことだろう。上原氏は次のように話して締めくくった。

「ES4導入プロジェクトを通じて、業界標準テクノロジーに基づくHPCシステムにおけるHPEの技術力・製品力の高さを実感しました。限られた時間の中で優れたアプリケーション性能を引き出した技術チームの力は、私たちの誰もが認めるところです。CPU、メモリ、水冷システムに至るまで、最新のテクノロジー製品をいち早く活用できるのもグローバルITカンパニーであるHPEならではでしょう。このES4を活用して新しい研究成果を生み出すことが私たちのチャレンジです。HPEには、優れた製品と技術チームの力でこれからも支援してもらえることを期待します」

画像をタップして拡大する

(写真左より)

国立研究開発法人海洋研究開発機構

付加価値情報創生部門 地球情報基盤センター 計算機システム技術運用グループ 技術副主任 石黒駿 氏/グループリーダー 上原均 氏 博士(工学)/グループリーダー代理 大倉悟 氏/技術主任 今任嘉幸 氏


ご導入製品情報

ハイパフォーマンスコンピューティングソリューション(HPC)

HPEのHPCソリューション、専門知識、およびグローバルパートナーエコシステムを活用して、お客様の最大の課題に対応し、最も複雑な問題を解決します。


本件でご紹介の日本ヒューレット・パッカード製品・サービス

本ページに記載されている情報は取材時におけるものであり、閲覧される時点で変更されている可能性があります。予めご了承下さい。

+ もっと見る

導入ハードウェア

HPE Apollo Direct Liquid Cooling