画像をタップして拡大する

2021年3月26日

COVID-19の治療薬発見にスーパーコンピューターを活用

ハイエンドのスーパーコンピューターなら、30テラバイトの医療データと1,500億件を超える医療記録を数十秒で検索できます。

Christopher Rickett、Kristi Maschhoff、およびSreenivas Sukumarの3氏は、COVID-19の治療薬候補を探す過程で興味深いデータを発見しました。それはCOVID-19に暴露された人のうち、破傷風の予防接種を受けたことがある人は重症化率が低いというものです。また妊婦を対象とした最近のある調査では、陽性と判定された人の88%が無症状であったことが明らかになっており、この割合は一般集団の場合の約2倍です。妊婦に投与されることの多いTDaPワクチンが、意図しない予想外の免疫力をもたらした可能性はあるのでしょうか。この調査の詳細および考察をまとめた論文がMedical Hypotheses誌への掲載を受理されています。

これらの発見に関して、その内容に加えて興味深いのが、Rickett氏とMaschhoff氏がいずれも医学研究者ではないという点で、両氏はHPEのスーパーコンピューティング部門であるCrayのエンジニアです。COVID-19の発生以前は医学研究の経験はなかったものの、彼らは2020年初めに、Crayのスーパーコンピューターによる強力な大規模並列処理グラフデータベースを活用することで、COVID-19の治療薬研究を大きく前進させられるのではないかと考えました。

「情報が限られるなかで、私たちはまったく新しいテーマに挑戦し、膨大なデータから合理的な意味を引き出す方法を模索しました」とRickett氏は振り返ります。「その結果私たちがたどり着いたのがタンパク質配列の解析、すなわち (COVID-19スパイクタンパク質として知られる) ある1つのタンパク質配列とあらゆる既知のタンパク質配列を比較して類似度を判定する機能の構築でした。得られた情報を既知の薬剤と関連付ける方法が見つかれば、類似度の高いタンパク質に作用する薬剤に注目することで、治療薬候補となる化合物をより効率よく探せるはずです」。

圧倒的規模の挑戦

COVID-19の研究に関連するデータは膨大であるため、この挑戦は大きな困難を伴います。対象となるデータには、COVIDスパイクに対してモデル化する数百万の既知のタンパク質、蓄積された30テラバイトもの医療データ、解析に使用可能な1,500億件以上の医療記録などが含まれています。人間の研究者にとっては、最先端のコンピューターを使用できたとしても、こうした情報のごく一部分でも解析するのは到底不可能です。タンパク質の構造や単一分子による薬剤作用をモデル化するだけでも数ヶ月を要する可能性があります。しかしながらCray Graph Engine (CGE) アプローチを使用すれば、数百から数千ものCPUコアを同時に使用することでジョブをスライスして、数百万もの分子をわずか数十秒で評価できるため、COVID-19治療薬研究の飛躍的な進展が期待されます。

「通常こうした評価には長時間を要します」とMaschhoff氏は指摘します。「しかしながら、この問題は早急な解決策を必要とします」。

概念的には、CGEはトリプルと呼ばれるデータポイントのデータベースを構築することで機能します。個々のトリプルは3つの事実を主語、動詞、目的語の形で単純に集めたものです (例: COVID-19、引き起こす、熱)。これらのトリプルの抽出元は、成長を続ける9つの超巨大医療データセットで、総計1,550億以上のデータポイントが含まれています。これは従来のコンピューティング環境では想像すらできないようなジョブですが、CGEの卓越した性能により、解析の準備としてこの膨大なデータをメモリバンクにすべてロードする作業を1時間以内に完了できました。

Rickett氏のチームは、準備したデータを使用してナレッジグラフを動作させ、AIアルゴリズムを使用することで、広範なデータセット内に潜んでいる関連性や共通性を探りました。最初に行われたのが、COVID-19ウイルスを構成するタンパク質配列が、他の既知のウイルスと重複しているかどうかの調査です。次に研究者らは、それらの重複しているタンパク質配列が関係する疾病の治療に使用され効果をあげた既存の薬剤が存在するかどうかについてデータを照会しました。従来の医学研究では、この種の作業は一度に1つのデータベースしか検索できませんでした。これに対してCGE環境では、Crayチームはすべてのデータベースを同時検索することで、標準的な研究戦術では不可能な、複数データベースにわたる関連性を見出すことに成功しました。

「これらの情報をすべて同一データベースに統合することでクエリ時間が短縮され、また複数データセットにまたがる複雑なクエリを書くことも可能になりました」とMaschhoff氏は述べています。

関連性を探る

Crayのナレッジグラフには、一連の論理的な質問を通じて、前述の9つのデータベースを接続する複雑なロジックが組み込まれています。まずCOVIDスパイクに類似したタンパク質配列に作用する薬剤を探すために、個々の化学物質の特性をカタログ化した薬剤データベースが相互参照されます。次に特定された治療薬候補の副作用を調べるために別のデータベースが照会され、またこの薬剤が過去の臨床試験で使用されたことがあるか、使用されていた場合は効果や安全性についてどのように評価されたかを調べるために別のデータベースが照会されます。さらに薬剤の合成が可能かどうか、また可能であればその方法を決定するために、別のデータセットが使用されます。このようにしてデータセット内のすべての関連事実が考慮された後、候補となるすべての化合物について、治療薬として検討する価値があるかどうかがAIによって1つずつ推論されます。

画像をタップして拡大する

最終的にCGEはデータを絞り込み、COVID-19類似タンパク質への作用が期待できる約160種類の薬剤を突き止めました。その中には、他の研究者によりすでに特定されていた薬剤 (デキサメタゾンやロピナビルなど) や臨床試験中の薬剤も含まれていました。またこの解析を通じて、破傷風ワクチンと症状の軽減との間に関連がある可能性も明らかになりました。COVIDスパイクタンパク質と比較されたタンパク質配列の数は総計4,900万以上に達しています。

「我々のプロセスはほぼ直線的に拡大可能です」とRickett氏は述べています。「ノードの数を2倍にすると、処理に要する時間は半分になります」。シングルプロセスコンピューターの場合、今回のような解析には数日を要します。CrayのCGEプラットフォームを使用することで、同チームはこの解析に必要な時間を20秒未満にまで短縮しており、さらなる性能向上の余地も残されています。

このことは多くの研究者にとって朗報となるもので、スーパーコンピューティングは欧州全域にわたる50の事業体のパートナーシップであるExscalate4CoVなど、COVID-19の研究環境で広く活用されています。2020年初めにExscalate4CoVは4つのスーパーコンピューターを使用して、40万の分子についてCOVID-19ウイルスに作用する可能性をテストし、最終的に「ラロキシフェン」と呼ばれる薬剤を最有力候補として特定しました。臨床試験計画が10月末に発表されており、12週間にわたって実施される計画です。有効な治療薬の開発に向けて、膨大なデータセットの解析を加速する手段が強く求められているなかで、CGEアプローチによるスピードアップの可能性は大きな希望を意味します。

COVID-19の研究およびその先へ

言うまでもなく、Rickett、Maschhoff、Sukumarの3氏による研究は、COVID-19に効果を発揮する既存の薬剤の発見にとどまらない意味合いを有します。9つの医療データベースのすべてがナレッジグラフにロードされており、この統合されたデータセットはさまざまな目的に使用可能です。とは言え当面の焦点は生体内 (in vivo) 試験が可能なCOVID-19治療薬の発見であり、同チームは得られた成果を医学研究者や薬理学者に提供しています。CGEの研究は、新たな疾病の治療に転用可能な既存の薬剤を発見するうえで、AIがいかに有効なツールとなりうるかを示しています。

必要なのは正しい関係性を探り出せるように設計されたシステム、そして約20秒の処理時間です。

リーダーへのアドバイス

  • スーパーコンピューターは、従来のシステムでは到底不可能と思われていた課題を解決できます。
  • 十分なデータを使用した高度な解析は、専門家にとっても思いがけない真実を明らかにする可能性があります。
  • スーパーコンピューターとビッグデータは科学研究の手法を変えつつあります。

この記事/コンテンツは、記載されている特定の著者によって書かれたものであり、必ずしもヒューレット・パッカード エンタープライズの見解を反映しているわけではありません。

enterprise.nxt

ITプロフェッショナルの皆様へ価値あるインサイトをご提供する Enterprise.nxt へようこそ。

ハイブリッド IT、エッジコンピューティング、データセンター変革、新しいコンピューティングパラダイムに関する分析、リサーチ、実践的アドバイスを業界の第一人者からご提供します。

enterprise.nxt
ニュースレターのご登録

enterprise.nxtから最新のニュースをメールで配信します。