大量に生成されるデータの利活用で求められるデータサイエンスの人材育成と研究・開発を加速

学校法人 東京農業大学 東京情報大学 様

所在地:千葉県千葉市若葉区御成台4-1
URL:http://www.tuis.ac.jp/

画像をタップして拡大する

東京情報大学がAMD EPYC™プロセッサー搭載のHPE ProLiant Gen10サーバーをデータサイエンスの研究拠点に導入。学生のスキルアップと企業との共同研究を支える研究基盤として利用を開始。

東京情報大学はインターネットやITはもちろん、携帯電話さえ普及していない1988年に開設された日本初の総合情報大学だ。東京情報大学では革新的な技術やサービス、また将来を予測する高度な技術の創出に加え、未来のデータサイエンスを牽引する優秀な人材を輩出することを目的として、「先端データ科学研究センター」を2020年に設置した。同センターでは生命情報や情報セキュリティなどの分野でコンピューターによる計算処理がおこなわれており、マルウェアの分類処理では数カ月の時間を要するケースもあった。そこで同センターの研究基盤にAMD EPYC™プロセッサー搭載のHPE ProLiant DL325 Gen10ならびにHPE ProLiant DL385 Gen10を導入。データサイエンスの人材育成と研究・開発の加速に貢献している。

業界

教育

 

ビジョン

さまざまなデータを活用した先端的な研究活動を支援、データの分析および解析のスキルを身に付け、未来のデータサイエンスを牽引する優秀な人材を輩出

 

戦略

データサイエンス研究や機械学習・AI研究の分野においての、コンピューターによる計算処理能力の高速化

 

成果

• 計算時間の大幅な短縮(2~3カ月が1週間に、1~2カ月が2~3日に)

• 計算処理を同時並行で進めることができるようになり作業の効率化を実現

ご導入製品

HPE ProLiant DL325 Gen10

HPE ProLiant DL385 Gen10


データサイエンスの重要性が高まる中、先端データ科学研究センターを設置

 

東京情報大学は学校法人東京農業大学が運営しており、東京農業大学の教育理念を引き継ぎつつ発展的に継承する「現代実学主義」を掲げ、情報を活かして新しい未来を切り拓く人材の育成に務めている。東京情報大学でもっかの重要なテーマとなっているのがデータサイエンスの技術だ。

東京情報大学の副学長で先端データ科学研究センター長を務める布広永示氏は「ネットワークの高速化、センサー技術の発展などに伴って大量のデータが生成されており、それらを利活用して社会生活および社会活動に貢献するためにはデータサイエンスの技術が不可欠です」と指摘する。

そこで東京情報大学は2020年に「先端データ科学研究センター」を設置した。布広氏がセンター長を務める同センターは、さまざまなデータを活用した先端的な研究活動を支援するとともに研究活動に必要となる情報基盤を提供し、データの分析および解析のスキルを身に付け、未来のデータサイエンスを牽引する優秀な人材を輩出することを目的とする。また学内の教職員や学生だけではなく他大学や研究機関、企業などとも連携し、データサイエンスに関する研究を推進する研究拠点として機能する。

先端データ科学研究センターではさまざまなデータを分析・解析して利活用する研究がおこなわれている。例えばサイバーセキュリティの分野では「APIコール情報を用いたマルウェアのファミリ分類手法」、また生命情報科学の分野では「タンパク質間相互作用の予測手法の開発」が挙げられる。

これらの研究を統括する布広氏は「マルウェアのAPIコール列に基づく分類手法の研究では、マルウェアのAPIコール列を時系列順に抽出し、機械学習アルゴリズムを用いてマルウェアのファミリ分類の精度向上を目指しています」と説明する。

そして「タンパク質間相互作用の解析やその予測」に取り組む総合情報学部 准教授 村上洋一氏は「タンパク質の立体構造データベースから取得したすべての構造データから、タンパク質間相互作用部位を計算して、同じタンパク質上のあらゆる相互作用部位情報を検索できるデータベースを開発しています。またアミノ酸配列の分散表現を用いたタンパク質間相互作用の予測手法の開発にも取り組んでいます。タンパク質の配列や構造データの数は膨大で、その計算は非常に時間がかかります」と説明する。

国立遺伝学研究所のスパコンを高く評価、採用されていたHPEサーバーの導入を提案

 

東京情報大学の先端データ科学研究センターでは主に生命情報と情報セキュリティの二つの分野でコンピューターによる大量の計算処理がおこなわれている。これらの研究基盤となるコンピューターには、当初は一般的なデスクトップ型のPCが用いられていた。

以前の課題について村上氏は「例えば「APIコール情報を用いたマルウェアのファミリ分類手法」の研究・開発では、マルウェアが利用している引数すべて、カテゴリ情報に用いたAPIコール列、引数の重要度に基づいたAPIコール列をそれぞれ特徴とする三つの機械学習モデルを検証する際、CPU6コア、メモリ32GBのPCで計算すると最初の機械学習モデルが2~3カ月、ほかの二つが1~2カ月の時間を要していました」と説明する。

また計算処理が完了していることに気づかず、次の計算を始めるまでに時間を無駄にすることもあったという。PCは複数台運用されていたが計算処理に時間がかかるため、使いたくても使えない状況も生じていた。こうした問題の改善を求める声が教員や学生から聞こえるようになり、また自身も高性能なコンピューターの必要性を認識していた村上氏は、AMD EPYC™プロセッサー搭載のHPE ProLiant DL325 Gen10ならびにHPE ProLiant DL385 Gen10を布広氏に提案した。

選定の理由について村上氏は「以前に在籍していた研究機関で、HPE製のスーパーコンピューターのリソースを研究に使用していました。高性能で動作も安定しており信頼していたため、本センターのスケールに合った同様の環境がほしいと考え、国立遺伝学研究所の構成を参考にして布広先生にHPEのサーバーを提案しました」と説明する。

提案を受けた布広氏は「私自身、国内のメーカーでスーパーコンピューターの開発に携わった経験があり、HPEのサーバーはコストパフォーマンスと信頼性が非常に高いと以前より認識していました。実際に使用した経験と実績を持つ村上先生の推薦ですので、異論はありませんでした」という。

修士請求論文(令和3年度)
「APIコール情報を用いたマルウェアのファミリ分類手法」

システム・サイエンス情報系列、廣瀬 優希(指導教授:花田 真樹 教授)

機械学習モデル
①マルウェアが利用している引数値すべてを特徴とする機械学習モデル
カテゴリ情報を用いたAPIコール列を特徴とする機械学習モデル
引数の重要度に基づいたAPIコール列を特徴とする機械学習モデル


計算時間

機械学習モデル

一般的な計算機(コア数:6、メモリ:32GB)

先端データ科学研究センター高性能計算機(コア数:60、メモリ:500GB)

2~3ヶ月程度

1週間程度

1~2ヶ月程度

2~3日程度

1~2ヶ月程度

2~3日程度

機械学習モデルの計算時間を大幅に短縮、研究・開発の活発化でリソースの増強を検討

 

CPUのコア数やメモリやストレージの容量などの仕様を決めた村上氏は、さっそくHPEに仕様や見積もりを依頼しようとしたが、取引の経験がなく知り合いもいなかった。そこでWebサイトから商談を依頼した。

村上氏は「Webサイトから大まかな仕様を伝えたところ、すぐに営業担当者から連絡があり、お薦めの機種や構成を含めた具体的な提案をいただきました。すべての対応がスピーディかつスムーズでしたので、導入までに時間も手間もかかりませんでした」と振り返る。

そして東京情報大学の先端データ科学研究センターにはデータサイエンス研究用に多コア型のAMD EPYC™プロセッサーを搭載したサーバーと、機械学習やAI研究用にGPUを搭載したサーバーをそれぞれ導入したほか、ファイルサーバーやネットワークスイッチもすべてHPEの製品が導入された。

導入後、前述の「APIコール情報を用いたマルウェアのファミリ分類手法」の研究・開発において2~3カ月かかっていた計算時間が1週間に、1~2カ月かかっていた計算時間がわずか2~3日に大幅に短縮された。

さらに村上氏は「コンピューターのリソースが増強されたことで、同時にたくさんの計算処理が実行できるようになり、センター内での研究・開発の活動が活発化しています。またタスクを管理する機能があるため、計算状況が遠隔で確認できたり、次の計算を自動的に開始できたりするなど作業の効率化も図られています」と評価する。

今後の展望について村上氏は「利用が集中するとリソースの80%ほどが消費される場合もあり、CPUを増強したいと考えています。ファイルサーバーのストレージの容量は早急に増設が必要です」と、導入した環境が活発に利用されていることを印象付けた。

布広氏は「今後は東京農業大学や外部の研究機関からも先端データ科学研究センターを活用することが考えられ、コンピューターリソースの増強が必要になると思います。また、センター利用の拡大に伴って研究・開発で生成されるデータの価値はますます高まっていきますので、セキュリティの強化も重要な課題となるでしょう」と、HPEへの期待を込めて語った。

東京情報大学 副学長 先端データ科学研究センター長 布広永示 氏 / 東京情報大学 総合情報学部 生命・環境科学研究室 准教授 村上洋一 氏

画像をタップして拡大する

ご導入製品情報

AMD EPYCプロセッサーを搭載するHPE ProLiantサーバー

AMD EPYCプロセッサーを搭載するHPEサーバーシステムについて、AMDプロセッサーのセキュリティ機能や、HPE ProLiantサーバーの汎用性とパフォーマンスがもたらすメリットをご紹介します。


HPE x AMDパートナー倶楽部

『AMD EPYC』を搭載したHPEサーバーをお求めのお客様は、AMDサーバーについて高いご提案スキルをお持ちのHPE x AMDパートナー倶楽部参加パートナーへご連絡ください。

“HPE x AMDパートナー倶楽部”
参加パートナーはこちら

hpe.com/jp/amd-partner

画像をタップして拡大する

本件でご紹介の日本ヒューレット・パッカード製品・サービス

本ページに記載されている情報は取材時におけるものであり、閲覧される時点で変更されている可能性があります。予めご了承下さい。

導入ハードウェア

HPE ProLiant DL325 Gen10

HPE ProLiant DL385 Gen10