システム医学: ハイパフォーマンスコンピューティングの飛躍的進歩が可能にするアルツハイマー病の治療

医療研究はビッグデータ処理を必要とする時代を迎えました。その一例として、メモリ主導型コンピューティングがアルツハイマー病をはじめとする神経変性疾患の研究に活用されています。スーパーコンピューティングは疾病の診断および治療の進化に大きく貢献します。

 

いずれは医療研究所からフラスコや試験管が姿を消す日が来ると言ってはいささか誇張に過ぎますが、今日の研究所では、組織試料の棚と同じように、スーパーコンピューターが設置されているケースが増えています。

今日の先進的な医療研究にはコンピューターによる処理が欠かせません。その好例が、ドイツ神経変性疾患センター (DZNE) で行われているアルツハイマー病の研究です。

DZNEのPlatform for Single Cell Genomics and Epigenomics (PRECISE) の資金調達担当ディレクターを務めるJoachim Schultze教授によると、アルツハイマー研究の一側面であるゲノミクスだけでも膨大なコンピューティングパワーを必要とします。

アルツハイマー病のような神経変性疾患の研究においては、遺伝的要因の解明が欠かせません。そのため研究者は各患者の膨大なゲノムを調査し、それらのゲノムを理解可能な情報に再構築する必要があります。

こうした処理には膨大なコンピューティングパワーが必要です。1つのゲノムを患者の遺伝子情報に再構築するには180ギガバイト (非圧縮) が必要で、そのゲノムに対するコンピューティング要件により500GBが、さらに長期保存のために100GBが追加で必要になります。

こうした次世代のゲノミクス研究は、システム医学として知られている研究のごく一部に過ぎません。Schultze氏が指摘するように、システム医学では多数の患者から収集した膨大なデータの測定が必要とされます。

これにより医師や研究者は、「予後の良い患者と悪い患者を分けるバイオマーカーを特定し、それぞれに適した薬品や治療を考察することが可能になります」とSchultze氏は説明します。「放射線、画像、血液、ゲノミクスなどのデータを組み合わせて治療ターゲットを特定することが、システム医学における研究開発サイクルです」。

システム医学に携わる研究者は、膨大なデータを掌握し、データに潜むパターンを発見する必要がありますが、これは従来の研究範囲を超える作業であるとSchultze氏は指摘します。

ビッグデータとして知られるデータの洪水をSchultze氏は「知識の宝庫」と呼んでいます。他の業界と同様に医薬業界にも情報の洪水が押し寄せています。システム医学はこの問題の解決策ではありますが、その実現にはハイパフォーマンスコンピューティングが欠かせません。一例として、配列決定されたゲノムの数は今後数十年で100万から10億に増加するとSchultze氏は予測しています。

「現時点では、こうしたデータのすべてに即座にアクセスする方法はありません」と同氏は指摘します。「私たちはこの知識の宝庫を活用するためのシステムを必要としています。倫理上の問題やデータの安全性に関する懸念があるとはいえ、こうしたシステムを構築できれば、膨大なデータから多くの知識を得られることは明らかです」。

研究のさらなる進化を目指していたDZNEが注目したのが、160テラバイトのメモリを搭載する、The Machineと呼ばれるHPEのメモリ主導型プロトタイプです。DZNEは膨大なデータに対処するために、HPEの新しい画期的なメモリ主導型コンピューティングアーキテクチャーを採用した結果、ゲノミクスパイプラインを100倍高速化することに成功しました。

詳細を見ていきましょう。

 

タンパク質マッピングについて

疾病の仕組みを解明するためには細胞の仕組みを解明する必要がある、とボン大学ポスドク研究員のMatthias Becker博士は説明します。そしてそのためには、細胞のタンパク質の設計図を調べる、すなわちDNAの配列を解明することが欠かせません。

DNA配列をデータの羅列から研究者が使用可能な情報に変えるためには、1人の患者から収集されたデータのスニペットを再構築する必要があります。遺伝子データのスニペットは、参照ゲノム、すなわちガイドの役割を担う完全なゲノム配列と比較されますが、これは「コンピューティング負荷の高いプロセスです」とBecker博士は説明します。可能な限り時間効率を高めるために、Becker博士のチームはカリフォルニア工科大学で開発されたオープンソースの「疑似アライメントツール」であるKallistoを使用しています。

以前のツールでは3,000万件の「リード」の処理に約2日を要し、この処理には3,000万のスニペットを検証および構築してFASTQ形式で保存する作業が含まれます。このプロセスは、既存のハードウェア上で1億2,700万件のリードデータセットを使用した場合で、22分を要しました。DZNEが2016年にKallistoを導入してHPEのSuperdome Xサーバー上で運用開始し、メモリ主導型コンピューティングツールを使用するようになると、同じデータ処理を13秒で完了できるようになりました。

この改善を実現するために、研究者およびコンピューター科学者は、従来のストレージに代えてライブラリアンファイルシステム (LFS) を使用することにより、k-merアクセスとメモリ管理を刷新しました。また複数インスタンス間で何を共有できるかを考察した結果、複数ノード上でデータを実行して索引にパラレルでアクセスするようにしました (FASTQファイルをLFSに移行したことで、複数の異なるツールが同じデータセットを使用することが可能です)。これらの処理ではメモリマッピングが使用されますが、リニアファイル読み取りとは異なり、データを待ち時間なしに任意の処理ノードに移動できます。

データをメモリ上に保持することで、データが同じ状態で維持されるため、DZNEでは参照ゲノムを初期化する必要がなくなりました。研究者はリードを短いk-merに分割し、ハッシュテーブルとして生成されたグラフを読み取ります。さらに膨大なメモリプールの強みを生かすことで、ハッシュテーブル内のハードコードされたロードファクターが95%削減されました。

 

より優れたハードウェアを投入

この段階に達して、DZNEは「より優れた新しいハードウェアを導入することで、このプロセスをさらに高速化できないか」と考えるようになりました。この時点でアプリケーションのパフォーマンスは、Superdome Xのスケールアップ型アーキテクチャーによって制約されていました。 これに対してThe Machineプロトタイプは、新しい処理ノードを追加することでメモリファブリックを柔軟に拡張できます。プロトタイプは (ASICではなくFPGAが使用されていたために) Superdome Xよりも低速でしたが、テストの結果は、ノードを追加することでアプリケーションパフォーマンスを直線的に向上できることを示唆するものでした。

「喜ばしいことに、これは事実であることが判明しました」とSchultze氏は述べています。新たなハードウェアの導入により、DZNEはより多くの成果をより短時間で、またより少ないコンピューティングコストで達成できるようになりました。

さらに質的な変化ももたらされました。

処理時間の短縮によってチームのワークフローは大幅に改善されました。以前はDZNEの研究者がパイプラインを実行する際には、開始から結果を得られるまでを5~6日と見積もる必要がありました。

「その間は何か別の作業をしなければなりませんでした」とSchultze氏は述べています。関連性のない複数のプロジェクトを並行して進めることもできますが、こうした方法が常に可能であるとは限りません。「答えが返ってきたときには「自分が何を質問したのか」を忘れていることもありました」とSchultze氏は振り返ります。「今では思考プロセスを妨げられることがなくなり、研究活動は大きく改善されました。データ分析時間の短縮により私たちは創造性を大きく向上できました」。

こうした経験や実験はほんの始まりに過ぎません。Becker博士によると、DZNEが認知症やアルツハイマー病を解明するために解析する必要があるデータは、ゲノムデータだけではありません。臨床データ、ラボ、画像、環境データなどについても解析が必要です。これらのデータを適切に匿名化されたIDのもとでローカルに保持しつつ、効果的な治療につながるパターンを見出すために、さまざまな基準による解析が可能な状態に維持することが求められます。

 

システム医学の今後

この先システム医学には、データ統合、機械学習、ニューラルネットワーク、可視化などのテクノロジーが組み込まれていくと思われます。

その一例として、Schultze氏が述べているとおり、コンピューターモデリングによって脊髄損傷の治療に役立つ可能性のある事実が明らかになりました。

「ニューロンは成長しているか機能しているかのどちらかで、両方を同時に行うことはできません」とSchultze氏は説明します。「ニューロンの状態を遷移させる分子スイッチが存在することは知られており、私たちは従来型の研究所での実験を通じて、ある鎮痛剤がニューロンを成長モードに切り替える可能性があることを突き止めました。脊髄損傷の治療実績を持つ欧州全域の病院から収集された膨大なデータを処理した結果、その鎮痛剤を処方されていた患者は、そうでなかった患者に比べて、治療成績がはるかに良いことが確認されました」。

膨大なデータへのアクセスと、それらのデータ内のパターンを特定可能なツールにより、Schultze氏のチームは有意な成果を得ることができ、その成果は学術雑誌にも発表されました。現在この薬剤については臨床試験に向けた審査が進められています。

どの分野の研究でもそうですが、とりわけ医療研究では、データの洪水が課題となっています。しかしながら、こうしたデータを適切に処理できれば、その他の方法では診断できない疾病を抱えている人々に希望をもたらすことができます。膨大データを処理するうえで、より高速かつ高性能なコンピューターは大きなメリットをもたらします。ムーアの法則の終わりを引き延ばそうとする、The Machineをはじめとするさまざまな取り組みは、単なる興味深い謎解きやビジネス上の課題というだけではありません。絶え間ない前進は私たちのDNAに組み込まれた本能です。

この記事/コンテンツは、記載されている特定の著者によって書かれたものであり、必ずしもHewlett Packard Enterpriseの見解を反映しているとは限りません。

healthcare.nxt

医療業界がその変革のために必要とする「手当て」は、もはや単に包帯を巻くレベルでは間に合いません。デジタル化という良薬を飲み込み、患者を中心に据えた、より個人のニーズを満たすケアに取り組む必要があります。

enterprise.nxt

ITプロフェッショナルの皆様へ価値あるインサイトをご提供する Enterprise.nxt へようこそ。

ハイブリッド IT、エッジコンピューティング、データセンター変革、新しいコンピューティングパラダイムに関する分析、リサーチ、実践的アドバイスを業界の第一人者からご提供します。