国立大学法人東北大学 東北メディカル・メガバンク機構がゲノム解析用HPCシステムを構築し15万人規模のバイオバンク計画を推進



国立大学法人東北大学 東北メディカル・メガバンク機構 様

 

高密度サーバー「HPE ProLiant SL6500」を100シャーシ/800ノード導入しゲノム解析に特化した国内トップクラスの高性能HPCシステムを整備

 

"ToMMoには、ゲノム研究の中核機関として我が国のゲノム研究をリードしていく使命があります。新たなゲノムコホート解析システムの成果が、個別化医療・個別化予防への扉を開いてくれるものと期待しています"

―国立大学法人東北大学 大学院情報科学研究科
 応用情報科学専攻 生命情報システム科学分野
 国立大学法人東北大学 東北メディカル・メガバンク機構 ゲノム解析部門
 生命情報システム科学分野 博士(理学) 教授
 木下 賢吾 氏

国内トップクラスの性能(401TFLOPS)を発揮するHPCシステム

我が国におけるゲノム研究の中核拠点として、世界屈指の規模となる15万人の「ゲノムコホートデータベース」の構築を進める国立大学法人東北大学 東北メディカル・メガバンク機構。その研究を支えるHPCシステム「ゲノムコホート解析システム」の本格運用がスタートした。計算ノードには「HPE ProLiant SL6500スケーラブルシステム」が採用され、「ゲノム情報解析」と「データバンク」という役割を担う。ゲノム解析に特化したHPCシステムとして国内トップクラスの性能(401TFLOPS)を発揮。ToMMoが目指す「未来型医療」の実現に向けて大きな成果が期待される。

 

業界

公庁・研究機関・学校

 

目的

生体機能分子を多角的に解析する「ゲノムコホート解析システム(フェーズ1)」の構築。2016年までに15万人規模の「ゲノムコホートデータベース」を構築し、ゲノムの多様性と疾患の関係を調査するための統合的かつセキュアな情報管理・活用を実現する。

 

アプローチ

200ノードによるクラスター型HPCシステムを4ユニット(計800ノード/16,000コア/111TBメモリ)構築。セキュリティレベルおよび使用目的に応じてユニットを使い分けることで、多様な解析処理要求に柔軟に対応できるシステム構成とする。

 

ITの効果

・高性能かつ低消費電力のインテルR XeonR プロセッサー E5-2600 v2 製品ファミリー搭載の高密度サーバー「HPE ProLiant SL6500スケーラブルシステム」を200シャーシ/800ノード導入し、ゲノム分野に特化したHPCシステムとしては国内トップクラスとなる401TFLOPSの総合理論演算性能を達成

・汎用的な1Uサーバーとの比較で設置スペースを1/2、消費電力の約10%削減を実現

・x86ベースの標準化されたシステムアーキテクチャーの採用により開発・テスト・本番向けのリソースを柔軟に提供

・仮想デスクトップ(VDI)によるクライアント環境を整備しクライアントセキュリティを強化

 

ビジネスの効果

・15万人規模のゲノムコホートデータベース構築を支える解析基盤システムを確立

・大規模かつ統合的な解析処理を2日で実行可能なパフォーマンスを実現

・4ユニット構成により複数かつ多様な解析処理要求に柔軟に対応可能に

・検査、次世代シークエンサー、解析処理までのプロセスのボトルネックを解消し業務効率を大幅に向上

15万人規模のゲノムコホートデータベース構築を目指す

 

国立大学法人東北大学 東北メディカル・メガバンク機構(以下、ToMMo)は、未来型医療を築いて東日本大震災被災地の復興に取り組むために2012年に創設された。その事業の柱は、医療情報とゲノム情報とを組み合わせた「バイオバンク」の構築、地域医療情報連携基盤の構築、高度専門人材の育成の3つ。今後およそ10年に及ぶ計画が明らかにされている。

ToMMoでは、復興支援事業「東北メディカル・メガバンク計画」の一環として、岩手医科大学と共同で大規模なコホート調査(長期健康調査)を推進。協力者の方々に提供頂いたサンプルを解析し、2016年までに15万人規模の「ゲノムコホートデータベース」を構築するミッションを担っている。これをもとに遺伝子研究を発展させ、一人ひとりの体にあった「個別化医療」、病気を防ぐ生活スタイルの提案という「個別化予防」につなげていく計画だ。東北大学教授であり、ToMMo ゲノム解析部門の副部門長を務める木下賢吾氏は次のように話す。

「ToMMoは我が国におけるゲノム研究の中核機関であり、ゲノム情報の利活用を促進する使命も担っています。ゲノム解析部門では、HPCシステム(スーパーコンピュータ)によるゲノム解析・多層オミックス解析を行い、ここで得られた高品質なゲノム解析情報を、コホート情報とともに『統合・知識データベース』上で管理しています」

「統合・知識データベース」は、厳格にセキュリティを確保した上で研究者コミュニティに提供される。そして、ゲノムの多様性と疾患の関係を明らかにするために、国内外の研究施設が連携した解析研究が進められる。

木下氏は、「ゲノムの解析が進むにつれて、ゲノムには変異(レアバリアント)があり、それぞれの変異が疾患と深く関わっていることがわかってきました。しかし、数10、100といった少数のサンプルでは、本当にその変異が特定の病気の原因なのか明らかにすることは困難です。15万人という規模を達成することによって、日本人に適した個別化医療や個別化予防を大きく前進させられると考えています」と説明する。

また、東北大学教授であり、ToMMo ゲノム解析部門 インシリコ解析室 室長を務める長﨑正朗氏は、次のように語る。

「ToMMoでは、子どもと両親、双方の祖父母を合わせ『三世代コホート調査』を通じて約7万人のデータベースを構築します。地域住民コホート調査約8万人と合わせ、“15万人規模のゲノムコホートデータベース構築”というのは世界的にみても最先端の試みです」

国立大学法人 東北大学

大学院情報科学研究科
応用情報科学専攻
生命情報システム科学分野
国立大学法人東北大学 東北メディカル・メガバンク機構
ゲノム解析部門
生命情報システム科学分野
博士(理学) 教授
木下 賢吾 氏

国立大学法人 東北大学

国立大学法人東北大学 東北メディカル・メガバンク機構
ゲノム解析部門バイオメディカル
情報解析分野
インシリコ解析室 室長
大学院情報科学研究科(兼務)
大学院医学系研究科(兼務)
博士(理学) 教授
長﨑 正朗 氏

401TFLOPSを発揮する「ゲノムコホート解析システム」

 

ToMMoは、2014年7月に「ゲノムコホート解析システム」の本格運用を開始した。「ゲノム情報解析」と「データバンク」という役割を併せ持つスーパーコンピューターである。その性能は、ゲノム分野に特化したHPCシステムとして国内トップクラスとなる401TFLOPSを達成した。

ゲノム情報解析では、次世代シークエンサーで読み取った膨大な数のDNAデータを、ヒトゲノム配列情報に再構成する処理を行う。具体的には、国際参照ゲノム配列に該当する領域に張り付ける「マッピング」により、標準と異なる塩基ポジションを集計して「変異コール」と呼ばれる差異を集計する。

「解析対象となるデータ量は1人分でおよそ1TBに達します。また、システムは膨大な計算処理だけでなくデータバンクとしての役割も担います。私たちは、慎重にシステムアーキテクチャーを設計し、およそ2年をかけて稼働を実現させました」(長﨑氏)

「ゲノムコホート解析システム」の中核を成すHPCクラスターに採用されたのは、高さ4Uに8サーバーノードを収容する超高密度サーバー「HPE ProLiant SL6500スケーラブルシステム」である。MPI(Message Passing Interface)系プログラムの処理に最適化された、大規模並列処理システムを実現した。 「800サーバーノード/16,000コアで構成する計算ノード全体を目的別に4つのサブユニットに分割し、セキュリティ、スピード、利便性、テスト環境用などシステムを性格分けしています。4つのサブユニットを使い分けることで、大規模かつ多様な解析処理要求に柔軟に対応できるよう工夫しました」と長﨑氏は解説する。

「ゲノム情報解析」は統合解析・開発およびゲノム定型解析で2区画、「データバンク」は情報分譲および統合・知識データベースで2区画(計4区画)というのがその内訳となっている。

「ゲノム解析部門内で開発したプログラムのチューニングや動作確認には慎重を期しています。まず1つのユニットで試行的に導入し、動作を確認したうえで安定稼働が求められる他のユニットに水平展開する運用方法を採っています」(長﨑氏)

 

トータル“16,480コア/127TBメモリ” というコンピューティングリソース

 

ゲノムコホート解析システムの計算ノードに採用された「HPE ProLiant SL6500スケーラブルシステム」は、ToMMoが求める高い性能要求を満たしながら優れた省エネルギー効果をもたらした。

高さ4Uのシャーシには、高性能かつ低消費電力のインテル® Xeon® プロセッサー E5-2600 v2 製品ファミリー(2CPU/10コア)を搭載する「HPE ProLiant SL230s Gen8サーバートレイ」を8ノード収容。一般的な1Uサーバーとの比較で1/2というスペースに16CPU/80コアの実装を実現している。計算ノード全体では、実に16,000の高性能コア/111TBメモリという巨大なリソースを有する。

HPE ProLiant SL230s Gen8は、シャーシ内で電源やファンを共有化するなど省電力化に工夫が凝らされている。また、モジュール型で抜き差しのしやすい構造を採用するとともに、サーバーの前面に電源以外のケーブルを集約。大量のサーバーを運用する環境で、メンテナンスの効率性を配慮したデザインだ。

クラスター型HPCシステムでは、計算ノード間、計算ノードとストレージ間のインターコネクトがシステム全体の性能を左右するが、ゲノムコホート解析システムではどのようなテクノロジーを採用しているのか。

「56ギガビット/秒を発揮するInfiniBand FDRを全面的に採用し、システム全体でボトルネックを解消しています。また、最大50PBまで拡張可能なストレージシステムには、超並列分散共有ファイルシステムであるLustreを採用するなど、ゲノムコホート解析システム全体で高い性能を発揮するよう設計しました」(長﨑氏)

木下氏は、「今回導入したゲノムコホート解析システムを、私たちは“フェーズ1”と呼んでいます。これまで利用してきた“フェーズ0”はいわばプロトタイプ。リソースが限られていたため定型的な解析処理をこなすのが精一杯でした。フェーズ1の稼働によって、ようやく大規模かつ統合的な解析処理を実行できる環境が整いました。ゲノムコホートデータベースの拡充により、共同研究もさらに加速していくことになります」と新システムへの期待を語る。

システムの中核環境が整備され 研究の加速に期待

 

「HPE ProLiant SL6500スケーラブルシステム」の導入に際して、木下氏・長﨑氏は実機による稼働・性能検証を実施した。

「今回の調達では、大規模な計算ノードが導入後に滞りなく稼働することが必須でした。そのため、私たちは入札の要件として100ノード規模での検証が必要と考えました。導入後6か月が経ちますが、トラブルもなく順調に稼働しています」と長﨑氏は話す。

ゲノムコホート解析システム(フェーズ1)には、共有メモリ型サーバーとして大容量のメモリをサポートするインテルR XeonR プロセッサー E7 v2 製品ファミリー搭載の「HPE ProLiant DL580 Gen8」(8ノード/480コア/16TBメモリ)も導入された。ゲノムコホートデータベースに拡充に伴い、インメモリーでの大量データの高速処理というニーズが高まると予想されている。

「HPCクラスターと共有メモリ型サーバーはどちらもx86ベースです。共通のデータを様々な目的で使い分けできる環境であることは、非常に重要なポイントです」と木下教授は指摘する。

ゲノムコホート解析システムを利用する研究者は、ゲノム解析部門のほか全体でおよそ100名。セキュリティを担保しながらゲノム情報の利活用を進めていくために、仮想デスクトップ(VDI)を導入し、データをユーザー側に置かないシンクライアント環境も整備された。

◇◇◇

ToMMoでは、「東北メディカル・メガバンク計画」のコホート事業に参加した日本人1,000人分の全ゲノム情報の解読を2013年11月に完了。2014年3月より、ゲノムコホート解析システム(フェーズ1)による解析を急ピッチで進め、8月には初バージョンとなるデータを公開した。

木下氏は、「その先に見据えているのは、世界的にみても最先端の試みである“15万人規模のゲノムコホートデータベース構築”です。ToMMoには、ゲノム研究の中核機関として我が国のゲノム研究をリードしていく使命があります。新たなゲノムコホート解析システムの成果が、個別化医療・個別化予防への扉を開いてくれるものと期待しています」と語って締めくくった。

ご導入企業様

国立大学法人東北大学 東北メディカル・メガバンク機構 様

 

所在地:宮城県仙台市青葉区星陵町2-1

URL:http://www.megabank.tohoku.ac.jp/