HPCワークロード
HPCワークロードとは

HPCワークロードは、複数のコンピュートリソースに分散された非常に複雑なデータ集約型タスクです。それぞれのコンピュートリソースが、タスクの各部分を並行して実行します。HPCシステムは一度に数百万のシナリオを実行し、テラバイト (TB) 単位のデータを同時に使用できるため、組織は有益な情報をより早く入手することができます。

目次

    HPCワークロードのコンポーネントとは

    HPCワークロードはそれぞれ異なり、タスクを完了するためには、必要なエフォート (所要時間、インターバル、規模) に応じて、さまざまなレベルのCPUと予約済みメモリが必要です。最も基本的なレベルでは、1つのワークロードまたはクエリがインプット(I) を収集し、アウトプット (O) を生成します。これは次のコンポーネントに分解できます。

    · リクエスト: ワークロードの「作業」は、そのアプリケーションで要求される作業を指します。この作業には、一連の読み取りおよび書き込み操作 (I/O コマンド) と、ストレージ システムとの間の関連するペイロードが含まれます。

    · アプリケーションとVM: すべてのワークロードは、作業遂行のために使用されているリソース、またはアプリケーションの進行中のエフォートに関連付けられています。アプリケーションがデータを処理する方法と固有のソフトウェア制限によって、ワークロード自体の特性が決まります。

    · 作業セット: ワークロードの間に作成または消費されるデータの量を作業セットと呼びます。一般的なHPCワークロードは、膨大な量のデータ (ほとんどが非構造化形式) を消費します。科学者とエンジニアがワークロードの精度をファインチューニングする作業に取り組んでいるため、HPCモデルで使用されるデータは飛躍的に増加しつつあります。

    · デューティサイクル: 一連のプロセスが発生し、その後に再発生した場合、それをデューティサイクルと呼びます。この作業のおよその再現時間は、データを使用するユーザー、アプリケーションの目的、およびストレージのパフォーマンスによって大きく変動します。

    HPCワークロードの管理方法

    従来のHPCシステムは、コマンドラインインターフェイス (CLI) を使用してジョブの送信と管理を行います。HPCワークロードを管理するプロセスは、他のデータワークロードとほぼ同じように、関連するデータの識別と準備から始まり、リクエストの送信、アプリケーションの実行、生成された結果の収集と保存がそれに続きます。

    データを準備する

    HPC ワークロードの精度はデータの健全性に依存します。組織は、分析対象のデータセットに対してデータスクラブを実行し、不正確な形式、不完全な形式、不適切な形式、または重複したデータを更新もしくは削除する必要があります。

    データアクセスを設定する

    HPCワークロードは、データにスムーズに、スピーディにアクセスしなければなりません。一方、組織はデータを安全かつ効率的に伝送するためのポリシーを実装する必要があります。データレイク、データファブリック、レイクハウスアーキテクチャー、ニューラルネットワークのいずれであっても、使用されるすべてのリソース全体で同じ暗号化とアクセス制御が実行されます。

    アルゴリズムを選択する

    使用するアルゴリズムを選択し、分析モデルを構築、トレーニング、展開するためには幅広い専門知識が必要です。リクエストを送信するデータサイエンティストがアルゴリズムの選択を定義しなければなりません。

    クエリを実行する

    多くの場合、HPCで調査結果を生成する際には多数のアプリケーションを使用します。こうした複雑な分析を分割し、整理するときには、Apache Hadoop、Databricks、Clouderaなどの分散コンピューティングソフトウェアプラットフォームを使用します。

    HPCワークロードの種類

    HPCワークロードにはいくつかのカテゴリがあります。膨大な量のデータを見て傾向を検索し、予測を行い、操作や関係について推奨される調整を生成します。

    人工知能 (AI)

    簡単に言えば、機械が情報を処理する際に人間の知能をシミュレーションするのが人工知能 (AI) です。AIの焦点は、学習、推論、自己修正など、人間が毎日何十億回も決定を下すために使用する認知スキルです。入力データを取得し、それを実用的情報に変換するためのルールを作成することも学習自体に含まれます。推論は、望ましい結果を達成するために使用する適切なアルゴリズムの決定を含みます。自己修正はAIプロセスの中で最も重要な部分です。自己修正における個々の決定は、アルゴリズムの継続的な微調整に役立ちます。

    機械学習

    人工知能の一種である機械学習 (ML) は、アルゴリズムを駆使して結果の予測精度を高めます。MLの最も一般的な用途は、Netflix、Spotify、Facebookといったメディア企業を支える推奨エンジンです。その他の用途としては、顧客関係管理システム、ビジネスインテリジェンス、仮想アシスタント、人事情報システム、自動運転車などが挙げられます。

    ディープラーニング

    ディープラーニングは機械学習のサブセットで、MLにおける予測分析の自動化を意味します。情報処理のレイヤーを使用し、より高度な理解をレイヤーごとに構築し、データセットに関するより複雑な情報を着実に学習していきます。典型的なユースケースとして挙げられるのが自動運転車です。ボンネットの中にあるスーパーコンピューターが車両を操縦するための自動化スキルを構築するのです。

    HPCワークロードはクラウド環境でどのように機能するのか

    クラウドはHPCの理想的なプラットフォームです。お客様は、HPCワークロードをクラウドに移行することによって、無限に近いコンピューティングとサービスをオンデマンドで活用できるようになります。つまり、あるワークロードに必要なだけのリソースを使用し、完了したらそのリソースを解放できるということです。

    さらに、クラウドベースのコンピューティングインスタンスとストレージリソースのインフラストラクチャをアセンブルし、世界中のデータセンターに分散する数十万台ものサーバーを管理することも可能です。これにより、データと処理アクティビティを、ビッグデータタスクが配置されている場所の近く、またはクラウドプロバイダーの特定のリージョンで実行できるようになります。インフラストラクチャとソフトウェアサービスはクラウド上にあり、ユーザーは、ほぼあらゆる規模のビッグデータプロジェクト用インフラストラクチャを組み立てることができます。

    クラウドでHPCシステムを実行することの大きな利点は、必要に応じてリソースを動的にリアルタイムで追加または削除できることです。このようにスピーディに拡張できるため、容量のボトルネックの問題が解消され、お客様はワークロードに合わせてインフラストラクチャのサイズをさらに正確に調整できるようになります。また、基盤となるインフラストラクチャがクラウド経由で提供されるため、ユーザーはより少ない人員でより多くのワークロードを処理することができます。その結果、コストが削減されると同時に、人員の時間をビジネス価値の高いタスクに多く充てられるようになります。

    HPEとHPCワークロード

    HPEは、HPCと集中ワークフローのために、市場で最も包括的なソフトウェアポートフォリオを提供しています。当社はさらに、AI、ML、その他のHPCテクノロジーを活用するための柔軟性の高いソリューションや、業界最高のスケーラブルで高性能なストレージおよび相互接続テクノロジーを含む幅広いハードウェアを展開しています。未だかつてないスループットとGPU機能強化を提供するHPE Apollo、Slingshot、Parallel Storageは、それらのシステムの一つです。

    HPE Pointnextサービスは、HPCおよび集中ワークフローのための包括的なソリューションと消費モデルを提供し、サポートします。当社はさらに、HPEのベストプラクティステクノロジーに合わせてソリューション全体の管理と最適化を行い、お客様の組織がHPCに求める条件にお応えします。

    HPE GreenLake for HPCは、HPCアプリケーション向けのオンプレミスエンドツーエンド ソリューションです。お客様のチームがコンポーネントの統合や調整に時間を費やさなくても、業界をリードする驚異的なパフォーマンスを実現できるように設計されています。こうしてHPCとAIワークロードの展開が簡易化、迅速化されました。エンドユーザーもデベロッパーもデータサイエンティストも、HPE GreenLakeの顧客体験をフルに活用しながら、高性能クラスター上で純然たるHPC、純然たるAI、およびHPC/AIの集中ワークフローを実行することができます。

    関連するHPEのソリューション、製品、サービス

    HPE GreenLake

    HPE GreenLake for HPC

    HPE Pointnext

    関連トピック