2022年1月21日
問題になる前にエッジデータを管理する
この記事では、データバックホールを最小化する方法とそれが必要である理由について解説します。
エッジで生成されるデータの量はきわめて多く、世界経済フォーラムは、2025年までにすべてのユースケースで1日に463エクサバイトのデータが作成されるようになると見積もっています。またGartnerレポートでは、同じ期間にエッジで作成と処理が行われるエンタープライズデータが全体の4分の3に達すると予測されています。
これは朗報です。
アプリケーション、センサー、お客様、ソーシャルメディア、通信事業者、そして多数のIoTデバイスは、そのすべてがこうした膨大なデータの作成で重要な役割を果たしており、テクノロジーは、実際にデータが作成される多くのケースで分析を行えるように変化してきました。ただし、そうしたデータの大半は分析を行うために中核となる拠点に集約する必要があります。
そして膨大なデータが取り込まれることを考えると、それは厄介な問題となります。
ここで役に立つのが、エッジでの分析とクラウドのコアでの分析からなるデュアル分析です。残念なことに、エッジからコアコンピューティングへの大量のデータバックホールは、ネットワークに大きな負担をかけ、ネットワーク帯域幅のコスト、低速でコストがかかる可能性があるリンクでの輻輳、すべての動作を維持するためのIT部門による監視などの問題をもたらす可能性がありますが、企業はこうした問題を回避するために、プロアクティブに措置を講じてデータ負荷を軽減する必要があります。
これについて、データ環境の監視、移行、および管理方法を自動化する企業である、CompilerWorks社で最高技術責任者を務めるShevek氏は、次のように述べています。「データバックホールには、コストと時間がかかります。移動するデータの量が増えるとその分スピードが遅くなるため時間がかかり、インターコネクトのコストから電力予算まで、その他すべての側面でコストがかかるのです」。
今すぐデータバックホールの最小化に着手する必要がある理由
課題は、有意義な方法でエッジデータの増加率に合わせてデータボリュームを削減することにあります。IDC社の予測によると、全世界のエッジコンピューティング市場は2024年にほぼ2,510億ドルの規模に達しますが、それに応じてエッジでのデータの作成も増加していきます。
データの作成はシンプルになりつつありますが、そうしたデータから役に立つ情報を取得し、必要な場所でデータを利用できるようにすることは、今後も課題であり続けると思われます。またデータの管理と移動のコストは膨大になり、経済的負担を軽減する方法を見つけ出すことを中心に考える必要が生じてきます。
これについて、エッジAI企業のLGN社のCEOであるDaniel Warner氏は、次のように述べています。「結局のところ、エッジでインテリジェントにデータを選択してクラウドに戻されるデータのボリュームを減らすと、モバイル帯域幅の請求額だけでなく、その後処理する必要があるデータのボリュームも削減されます。AIワークロードの場合、それは同じく多額のコストがかかるプロセスである、クリーニング、アノテーション、およびトレーニングが必要なデータが減るということを意味します」。ただしこれは非常に微妙なプロセスであり、データサイエンティストにとっては、トレーニングデータが多くあるのが常にいいことですが、ドリフトを検出してモデルを再調整するための最新のデータを十分に確保することと、コスト要因となるすべてを元に戻すということのバランスを取る作業に力を注ぐ必要があります。
また、生成されるデータか伝送のコストが減ったときにバックホールを行うようにインテリジェントにスケジュールを設定すれば、データの移動に必要な費用を抑えやすくなります。
IDC社のエッジ戦略調査責任者であるDave McCarthy氏は、次のように述べています。「エッジ製品とエッジサービスは、デジタルトランスフォーメーションの次の波の原動力となっており、どのタイプの組織も、ビジネス・アジリティを向上させて新たなカスタマー・エクスペリエンスを創出する方法としてエッジテクノロジーに注目しています」。
それは、分類したり、保存したり、状況に応じて削除したりするとともに、オンデマンドで分析する必要があるデータが大量にあることを意味しており、貴重な情報を失うことなく、最初に元に戻すことができるデータが増えれば、より迅速かつ的確に、低コストでバックホールを管理できるようになります。
データバックホールを削減する方法
目標はコストと帯域幅のバランスを取ることですが、これは常に同じではなく、時間をかけて何度も評価する必要があります。
範囲が限られたケースでは、移動するデータを簡単に選択できます。これに関しては、火星探査機からデータを移動して「火星に生命は存在するのか」という疑問を解消することの問題について考えてみてください。
これについて、Shevek氏は次のように述べています。「私たちにエッジのすべてのデータを把握し、それを分析する方法がわかる先見の明があれば、火星探査機からの通信全体を1つの情報 (イエスかノー) にまで減らすことができます。しかしそのような先見の明はないため、私たちは潜在的な情報を一切失うことがないよう、リモート処理のコストとデータ伝送のコストに基づいて、エッジで行うこととローカルで行うことをインテリジェントに分けています」。
ただし、この地球でより一般的なシナリオでは、エッジのAIが拡大するのに伴って、そのビットが設定された理由についての証拠を示すための透明性と能力がより一層重要になるものと思われます。たとえばエッジでは、アルゴリズムによってローン申請が却下された金融のシナリオや、アルゴリズムに基づいて誰かの保釈金が非常に高く設定された裁判のシナリオなどが考えられますが、どちらのケースでも、「コンピューターがノーと言った」ということが有効な回答にはなりません。そのため、データには必ずしもビジネス価値があるとは限りませんが、ガバナンスと道徳の面で価値があるため、維持する必要があります。
これは、「火星の生命」の例で考えたアプローチの限界を示しています。存在しないデータについては、最初に「見せて欲しい」と伝えることになりますが、シンプルな二者択一とは異なり、道徳的な問題と法的な問題がある状況では、そうした問題を解消するためのデータを提示できる必要が生じてきます。
つまり、負担を減らしたり、データ転送を最適化したりするために何かをできるようにするには、その前にエッジでデータを分類する必要があるわけですが、そのためにどの方法を選択するのかが重要となります。
これについて、エッジAIプラットフォームプロバイダーであるCachengo社でマーケティング担当バイスプレジデントを務めるErik Ottem氏は、次のように述べています。「技術者がエッジでデータを圧縮したり最小化したりするのは、多くの場合に一時しのぎの対応であり、それによって実際に問題が解決されることはありません。このような対応によって今日の帯域幅の問題が解決されることはあるかもしれませんが、その範囲を広げられることはほとんどなく、長期的な解決策を見出さなければならないということが先延ばしになっているだけにすぎません」。
また同氏は、次のように付け加えています。「バックホールの問題の短期的な解決策としては、分析ワークロードの結果をデータセンターやクラウドに送るしかありませんが、現在では、エッジに適したシステムコンポーネントと専用のソフトウェア環境の進化によってそれが可能になっています」。このアプローチは、今後も引き続き、必要に応じてパフォーマンスと容量が許容可能なパラメーターの範囲内に収まっていることを確認し、他のエッジデータの収集に影響を与えるために定期的に膨大なソースデータを移動しなければならないという事実を否定するものではありません。
ほとんどの場合、企業はエッジ分析全体の影響を最小限に抑えるために、既存のデータ管理戦略を見直して改善する必要があります。
これについてLGN社のWarner氏は、「エッジAIアプリケーションがかつてない規模で本番環境に展開されるのに伴って、データセンターでAIアプリケーションのデータのボリュームが増加する中、企業のデータ管理およびデータウェアハウス戦略において、この種のワークロードとそれを最適化する必要性がきわめて重要になりつつある」と述べています。
価値あるデータと意味のないデータを見極める方法
Shevek氏は、「最も重要なのは情報を含まないデータを破棄することであり、残りの情報のうち、ビジネス上の意思決定に影響しないデータも破棄しなければならない」と述べています。ただし、このような解決策の見かけのシンプルさに気を取られてはならず、どのデータにも情報が含まれているものの、その情報が特定のユースケースには関係がない場合があるということを忘れてはなりません。今日の組織は、データを収集するにあたってユースケースを非常に重視するため、データサイエンティストは、簡単に管理できたであろう新たなユースケースで追加データがキャプチャーされていることに頭を悩ませています。組織は事前にどのようなビジネス上の意思決定が必要になるのかを必ずしもわかってはおらず、たとえばCOVID-19の結果を見てみると、突然予定外の意思決定が多数下されましたが、全体的に見て適切だったのは、事前にデータが揃っていたケースだけでした。
これについて、Shevek氏は「いくつかの圧縮スキームはシャノン限界に近く、実質的にデータ転送を必要最小限に減らすため、最初のステップに対するシンプルなアプローチでは圧縮が適用されることになる」と付け加えていますが、成長を続ける企業では、これがより広範なソリューションを実装するまでの時間稼ぎになります。
機械学習モデルのトレーニングを行っており、最終的に正しいか予想されるデータのインスタンス1つと予想外のすべてのバリアントのインスタンス1つになった場合、そのモデルにはトレーニングにおける偏見がないということになります。こうしたデータのいくつかの目的が、モデルをトレーニングしたり精緻化したりすることにある場合、この戦略は不完全ですが、このような「反復的なデータを回避する」戦略に加えることができる修正としては、合成データを使用してもパターンを再現できるよう、事象の回数と分布を記録するということが考えられます。
たとえばスマートサーモスタットでは、部屋や冷蔵トラックコンテナの温度を絶えず報告できますが、サーモスタットで10ミリ秒ごとに生成されるすべてのデータポイントを維持するのではなく、収集するデータを減らしても、「部屋の温度が変化したときにだけ報告を行えば効果は同等であり、これは観点と背景状況に応じて、どちらも有効なエッジ分析かRLE圧縮とみなすことができる」とShevek氏は述べています。これは、ここで示した大部分の意思決定プロセスと同じように、収集したデータの特定のユースケースに適用する必要があります。
上記のすべてを考慮した後に残ったデータの価値の見極めに関しては、大部分がデータ戦略に基づいて行われることになりますが、データに付加できる価値は多種多様であるということを覚えておいてください。
分析は一般的に反復的なプロセスであり、さまざまなトレーニングデータセットを選択して分析アルゴリズムを作成したら、トレーニングに人間の偏見が組み込まれないように、トレーニングセットの機能とそれらの機能の重みを精緻化します。また場合によっては、結果に満足するまで、得られた結果に基づいて (機能の) 組み合わせにさまざまなデータソースやフィールドを追加し、既存の機能を強化してトレーニングセットを精緻化することもできます。
専有データにも固有の文脈的価値がある
Deloitte社のAIプラクティスのシニアアドバイザーを務めるThomas Davenport氏は、Harvard Business Reviewの投稿で次のように述べています。「これは企業秘密や (多くの場合に独自のものであり、実際にはデータであることがほとんどない) 知的財産というより、企業がそれを有する唯一の組織であるか、それを固有のビジネス資産にするために十分な価値を付加したデータであると言えます」。
また同氏は、次のように語っています。「専有データは、大きい場合もあれば小さい場合もあり、構造化されていることもあればされていないこともあり、rawデータの場合もあれば精緻化されている場合もあります。重要なのは他者による複製が容易でないという点であり、データ管理を通じて攻撃的価値を得るための強力な手段となります」。
データを慎重に分類することは重要ですが、データをため込むのを恐れるといったことは避けなければなりません。
そのうち役に立つかもしれないデータを捨ててしまったり、失ってしまったりするのを恐れるのは普通のことですが、多くのビジネスでは一般的にそうした恐怖に根拠はありません。一方、医学研究や不正検出などでは、それが原理となっていますが、最も重要なのは文脈です。
車両識別番号およびライセンス番号検索プラットフォームであるVinPitの共同創設者であるMiranda Yan氏にとって、こうした懸念は「むしろ極端」であり、同氏が言うには、データはアルゴリズムを通過するため、重要な要素であるアウトプットはどのみち保存できます。たとえば、フィルターの基準を場所にすれば、関係のない情報を最小限に抑えられるわけですが、フィルター処理されていない大量のデータにはほとんど価値がなく、フィルター処理されたデータも時間が経つと有用でなくなるということを忘れてはなりません。そして機械学習では、ユーザーが重みやパラメーターを「選択」せず、それらに影響を与える可能性がありますが、最終的にはソフトウェアによる学習が行われます。
データを把握する
バックホールの要件を理解して必要な帯域幅を最小限に抑える適切な方法を見出すには、生成されるデータを細部まで把握することが重要です。自社がデータを収集し始めた時点でそのような情報を得るのは難しいと思われますが、データとその使用方法を継続的に分析すれば、自社で業務要件を微調整できるようになります。
リーダーのためのアドバイス
- どのようなデータを作成しているのかを把握する。
- ビジネスニーズや特定の専有コンテンツに対応するのに必要なデータだけを移動する。
- 最小限のデータを移動することに重点を置く。
- データの価値を継続的に再評価する手順を確立する。こうした手順を確立していなければ破棄されてしまうデータが重要になることもあるため、データを選択するときにはデータサイエンティストを密接に関与させる必要があります。
この記事/コンテンツは、記載されている特定の著者によって書かれたものであり、必ずしもヒューレット・パッカード エンタープライズの見解を反映しているわけではありません。

Pam Baker
フリーの寄稿者、33件の記事
Pam Baker氏は、InformationWeek、Institutional Investor、CIO.com、Network World、Computerworld、ITworld、LinuxWorldなどのテクノロジー、ビジネス、および金融関係の主要な出版物で数百の記事を執筆してきました。また、テクノロジーの分析研究に関するいくつかの著書、『Data Divination: Big Data Strategies (データに関する予言: ビッグデータ戦略)』を含む8冊の本、そして賞を獲得した製紙業界のドキュメンタリー作品も執筆しています。同氏は、National Press Club、Society of Professional Journalists、およびInternet Press Guildの会員です。
enterprise.nxt
ITプロフェッショナルの皆様へ価値あるインサイトをご提供する Enterprise.nxt へようこそ。
ハイブリッド IT、エッジコンピューティング、データセンター変革、新しいコンピューティングパラダイムに関する分析、リサーチ、実践的アドバイスを業界の第一人者からご提供します。
その他の記事を読む