2022年3月18日
機械学習に関して行うべきことと避けるべきこと
機械学習モデルを成功へと導くには、厳密で一貫性のあるデータ管理が不可欠です。このTech Talkエピソードでは、HPEの上級テクノロジストであるRajesh Vijayarajanが、大規模かつ複雑な実装に必要なソリューションを紹介します。
機械学習のような革新的なテクノロジーを導入するにあたっては、エッジツーコアの戦略に加えて、その戦略を実行するための専門知識も必要です。HPEの上級テクノロジストであるRajesh Vijayarajanは、お客様やパートナー企業が機械学習モデルのあらゆるピースを組み立て、実装を本番環境に移行するうえで必要な支援を提供しています。
「今日多くの企業が機械学習プロジェクトの失敗を経験していますが、その大きな原因として、機械学習モデルを極めて人工的な環境で開発するために必要なことと、現実の環境で運用を開始してから必要になることを区別できていないことが挙げられます」とVijayarajanはRobert Christiansen (HPEのOffice of the CTOの戦略担当バイスプレジデント) がホストを務めるこのTech Talkエピソードで語っています。
継続的改善
機械学習の導入にあたり組織は2つの点に留意する必要があるとVijayarajanは指摘します。第1は機械学習モデルの本番運用後に発生するデータドリフトの問題です。機械学習のトレーニングに使用されたデータセットの拡大に合わせて、モデルを継続的に改善およびアップデートすることが必要です。第2はモデルの再現性すなわち説明可能性の概念で、Vijayarajanが指摘するように、この点は規制の厳しい業界においてとりわけ重要になります。
「そのためには、モデルの構築に使用されたすべての要素の厳格なバージョン管理が必要です」とVijayarajanは説明します。「管理対象には、コード、パラメーター、新しいネットワークアーキテクチャー、実際に使用されたデータセットの具体的バージョン、データセットに適用される変換などが含まれます」。
データエンジニアが必要
とりわけ数百から数千ものモデルで構成される環境では、データエンジニアリングがカギを握るとVijayarajanは言います。「数百ものモデルのアンサンブルによって問題を解決しようとする場合、モデル全体を動作させるための、いわゆるデータパイプラインの構築が欠かせません」とVijayarajanは説明します。「これは基本的には、モデルにフィードされる別のモデルのアウトプット、または何らかの前処理ロジックを意味します」。
これらのデータパイプラインを実装し、大規模な展開にわたる継続的な更新を可能にするためには、自動化の組み込みが欠かせません。HPEのエッジツーコアのデータエンジニアリングプラットフォームのようなツールを使用することで、エッジからデータセンター、さらにはクラウド環境にわたるアプリケーションおよびデータのオーケストレーションが可能になります。
「データエンジニアリングプラットフォームのメリットは、これらのモデルを何千ものサイトにシームレスに展開し、ヒューリスティックな技法を適用して、私がクラウドソーシングの外れ値と呼んでいる問題に対処できる点にあります。さらにすべての処理は完全に自動的に行われます」とVijayarajanは言います。「これはある実装がそのピアである別の実装から学習できることを意味します」。
例えば、製造現場で部品のピッキングを行うロボットの場合、新しい部品が投入されると、「その新しい部品についての外れ値がコアに送られます。そして次の反復トレーニングによりモデルを新しい部品に対応させることで、その部品が他の製造現場に投入される前に、その部品を識別する能力がモデルに追加されます」とVijayarajanは説明します。
エッジでのデータ管理
複数の実装間にわたるアプリケーションやデータのオーケストレーションを可能にするには、もう1つの重要なコンポーネントであるデータファブリックが欠かせません。「これにより非常に一貫性のある方法によるエッジでのデータ管理が可能になります。ここでお客様やパートナー企業にお伝えしたいのは、データグラビティ問題に取り組むことの重要性です。エッジからデータを複製するやり方は、明らかに持続可能ではありません」とVijayarajanは述べています。
大規模かつ複雑な機械学習環境では、データの階層化や経過時間に基づくデータの破棄など、一貫性のあるデータ管理機能が重要になるとVijayarajanは付け加えます。
「サイト数や処理するデータ量の多さを考えると、一貫性の維持は非常に重要です」とVijayarajanは指摘します。「そのためにはエッジとコアの間でデータを選択的にやり取りできる仕組みが必要です。これはモデルのプッシュアウト、クラウドソーシングの外れ値、運用の観点からのクラウドソーシングのテレメトリなど、さまざまな処理を意味します」。
この記事/コンテンツは、記載されている特定の著者によって書かれたものであり、必ずしもヒューレット・パッカード エンタープライズの見解を反映しているわけではありません。

Enterprise.nxtのスタッフ
寄稿者、ヒューレット・パッカード エンタープライズ 65件の記事
Enterprise.nxtチームは、IT業界のさまざまなトピックについて、数十年にわたる経験を有します。その内容は、アプリケーション開発、AI、クラウドコンピューティング、データと分析、データセンターアーキテクチャー、エッジコンピューティング、エネルギー効率、IoT、機械学習、モバイル、ネットワーキング、プライバシー、セキュリティ、仮想化、最新のテクノロジーなど多岐にわたります。
enterprise.nxt
ITプロフェッショナルの皆様へ価値あるインサイトをご提供する Enterprise.nxt へようこそ。
ハイブリッド IT、エッジコンピューティング、データセンター変革、新しいコンピューティングパラダイムに関する分析、リサーチ、実践的アドバイスを業界の第一人者からご提供します。
その他の記事を読む