画像をタップして拡大する

2021年9月28日

膨大なデータ: 組織全体で実行するデータ管理戦略

膨大なデータがあれば、ビジネス上の意思決定に役立つ新たな分析情報を得られますが、このためには大局的なデータ管理計画を整えていることが不可欠です。
私たちは今、データの黄金期とも言える時代にいます。IDCによると、スマートフォン、クラウドアプリケーション、何十億ものIoTデバイスによって、企業のデータ量は毎年60%以上増加しています。

データを新たな原油に例える考え方はありきたりになりました。今後データはAI革命を加速させる燃料となります。大規模なデータプールで分析を行うことで、企業では、これまでにない有益な情報を収集して、的確な意思決定を行えるようになります。

しかし、データは、石油化学製品のようにはいかず、取得するソースごとにその内容が大きく異なります。データの抽出、精査、応用も企業独自の方法で行われています。また、多くの企業で、未加工のデータから有益な情報を得る技術がいまだに整っていません。

2019年にExperian社が実施した調査によると、3分の1近くの企業が、自社が扱うデータは不正確だと認識しています。また、70%の企業で、自社のカスタマー・エクスペリエンスの品質に関する情報などの戦略データを直接管理することができず、95%の企業で、品質の悪いデータが収益にマイナスの影響を与えていると回答しています。

手に負えない膨大な量になる前に、データを管理する態勢を今すぐ整える必要があります。そのための5つのステップをご紹介します。

データをため込まない

用途を考えずにデータを蓄積している企業が少なくありません。そうした企業は一貫した計画を持たずにデータを何年も収集しています。

HPEでAIとデータサイエンスを担当する主任設計者、Glyn Bowdenによると、「多くの企業が、将来このデータをスマートに活用しようと考えて、あらゆるデータを収集しています。しかし、情報源や収集する理由などを示さずに、大規模なデータプールの構築を始めると、そうしたデータに的外れで勝手な解釈が行われる可能性があります」

クラウドのストレージとコンピューティングは無限のように思われますが、データの処理と分析は無料で行えるわけではありません。
ENTERPRISE STRATEGY GROUP社、シニアアナリスト、MIKE LEONE氏

Enterprise Strategy Group (ESG) 社のシニアアナリスト、Mike Leone氏によれば、データ量が指数関数的に増加すると、企業は難しい経済的選択を迫られることになります。

同氏はこうも指摘します。「クラウドのストレージとコンピューティングは無限のように思われますが、データの処理と分析は無料で行えるわけではありません。多くの企業が、目的を達成できるだけの長期的な経済力を持っていません。データの消費を共通化しながら、リソースをきわめて効率的に利用する方法を見つけなければ、限界に達することになります」

さらに悪いことには、無関係なデータに固執すると、方向性を誤る可能性があるとBowdenは注意を促します。データの活用を主要なビジネスの原動力にするのではなく、データに合わせて主要なビジネスを変えることになりかねないのです。

Bowdenは、こうアドバイスします。「「なぜこのデータを保持するのか」という質問に答えられなければなりません。データを収集する理由とデータの用途がわかれば、物事がこれまでよりも明確になります。現在の目標に合うビジネス成果を常に最初に考えるべきです。新しいデータを利用できるようになったことを、行動を起こす理由にしないようにしましょう」

データのサイロ化を解消する

ビジネス成果を達成するためのデータを特定したら、データの保存場所、データを社内または社外に転送する方法、データ管理の担当者などを明確にします。Bowdenは、そのように次のステップを示しています。

つまり、Bowdenによると、「自社のデータエコシステムはどのようなものになるのか、また、今の課題は何かを十分に把握する必要があります。データがサイロ化しているなら、その理由を突き止めなければなりません。それは、簡単には共有できないSQLデータベースにデータが蓄積されたままだからでしょうか。データレイクを構築したにもかかわらずその存在を知っている社員がいないからでしょうか。最初に、現在保持しているデータを確認して、それらがどのように利用されているかを把握するとよいでしょう」

Customer Data Platform Instituteの創設者、David Raab氏は、サイロ化の理由として、データの管理を積極的に行わないような特定の事業部門がそれらを所有していることを挙げました。

同氏はこう続けます。「多くの場合、それは、腕組みをした社員から「データを共有するつもりはない」と断られるような状況とは少し違います。「私や私の部門にとってメリットがなければ、何らかの代価が必要だ」と主張されるような状況です」

サイロ化が発生すると、データの重複によって費用がかかり、組織全体でデータを最大活用できなくなります。多くの場合、サイロ化の理由は、事業部門のリーダーが大局的な管理方法をあまり真剣に考えていないことにあります。HPE Ezmeral go-to-market部門のバイスプレジデント、Anil Gadreはそのように指摘します。

Gadreは、こう続けます。「これまで、ほとんどの人が、「このデータセットはこの目的に使う、あのデータセットはあの目的に使う」と考えていました。しかし、大規模なデータセットを作成して、さまざまな目的に利用するお客様が多くなっています」

たとえば、Gadreによると、ある世界規模の大手保険会社では、大規模なデータレイクが52の異なる事業部門で活用され、各部門に多数のユースケースがあります。

Gadreは、「そのため、この共通のデータセットを利用する何百種類ものアプリケーションを用意した方がよいでしょう。それぞれの部門がさまざまな方法でそのデータを利用するからです」とも述べています。

データ主権の規制の遵守が必要になると、データのサイロ化を避けられないこともありますが、多くの場合サイロ化は解消した方がよいとGadreは勧めています。

データを重視する文化を育む

この規模のデータ管理にはトップダウンのデータガバナンス戦略が必要になるとESG社のLeone氏は述べています。

同氏によると、「データは驚異的な速さで増加していますが、その大部分が分析されていません。統合、カタログ化、適格性の判断などが適切に行われていなければ、データの信頼性の確保や、適切なツールでの利用が難しくなります。それ以上に重要なのは、本当に必要とする人にデータを提供できなくなることです。これからの1年間、データガバナンスはますます重要になります。とりわけ、高品質のデータを活用したい組織では、大きな意味を持つことになるでしょう」

そのため、さまざまな事業部門に働きかけて統合戦略を調整してくれる最高データ責任者を採用している企業が少なくありません。Leone氏はそのようにも語っています。その他にも対策が必要です。適切なスキルを備えたチームを作ることです。

Gadreによると、DataOpsへの関心が高まっています。スペシャリストチームを作り、膨大な量のデータセットの保存、共有、セキュリティの確保に関わるロジスティクスを管理することがその目的です。

Gadreはこう説明します。「サプライチェーンのロジスティクスを例に取ります。新型コロナウイルスワクチンを全国展開して管理するとしましょう。データのロジスティクスでも非常によく似た課題が生じます。さまざまな場所から調達したデータを 適切な人に届け、その人が適切なタイミングで利用できるようにしなければなりません。ワクチンの在庫のようにたちまちなくなるデータもあれば、すぐに価値が失われるデータもあります。そうではないものもあるなど、状態はさまざまです。データをどのように確保するのか、障害からどのように復旧するのか。レイヤーケーキの層のようにさまざまな問題が積み重なっています」

分析に適したデータを用意する

データを大量に収集する主な理由は、AIに応用してビジネス上の意思決定をインテリジェントに行うことです。しかし、有益な分析情報を得られるかどうかは、機械学習モデルに与えるデータの品質次第です。ITの世界でよく使われる 「Garbage in, garbage out (ゴミからはゴミしか生まれない)」という言葉がそれをよく表しています。

「どの企業にとってもAIの規模を拡大するための大きな原動力となるのは、整えられた意義あるデータを利用できるようにすることです」。AI for Good FoundationのCEO、James Hodson氏は、そのように語ります。AI for Good Foundationは、AIの活用に特化した非営利団体であり、社会のニーズに応える活動を行っています。「原則に基づいてAIを自社のプロセスに導入した場合、データの収集、蓄積、分析に優れた企業は、データの価値や収集方法をいまだに確認している企業よりもそうしたAIから多くの利益を得られます」

しかし、多くの企業で、効果的なデータインフラストラクチャを構築して、それを管理する適切な人材を獲得するための時間と労力が低く見積もられています。しかも、本当に有用なデータを収集できるようになるまでに何年もかかることがあります。Hodson氏はそのように指摘しています。

適切なユースケースを特定する

分析する上で最も有用なデータソースと、それらを応用する適切なユースケースを特定することも必要です。

Bowdenによると、「エンジンがなければガソリンを便利に使うことはできません。そのことが、データにも当てはまります。特定の問題を解決したり、特定の推論を実証したりする中で使わない限り、データを有効活用することはできません。ビジネス価値を実際に高められるようなデータにはならないのです」

ビジネスプロセスには機械学習に役立つものがあると、Anastassia Fedyk氏は述べています。同氏は、カリフォルニア大学バークレー校、Haas School of Businessで財政学助教授を務めています。たとえば、産業用機器で発生しそうな障害を予測するなど、明確に定義された予測問題なら、機械学習で分析できる可能性が高くなります。

Fedyk氏によると、要因を自社でコントロールできないような問題は、分析結果に影響を与える可能性があります。たとえば、競合会社が新製品を発売した後の売上の予測はあまり正確ではありません。

「どのようなことを分析すればよいかと聞かれたら、私は、こう尋ねます。「収益が上がらない、または、コストの問題を解決できない一番の理由は何ですか。特にどのような点で優位に立ちたいですか」」。それがGadreからのヒントです。

ほとんどの企業で、分析を活用する主要なビジネス目標が数件に絞り込まれます。Gadreが勧める次のステップは、その目標ごとに担当チームを作り、数週間かけてデータから有益な情報を見つけてもらうことです。

Gadreはさらにこうアドバイスします。「よく言われるように、早めに失敗することが重要です。とにかくチャレンジしましょう。うまくいかなくても、学んだことに喜びを感じて、次に進みましょう。そのデータセットが結局役に立たず失敗したとしても、費用をかけるだけの価値はあります」

この記事/コンテンツは、記載されている特定の著者によって書かれたものであり、必ずしもヒューレット・パッカード エンタープライズの見解を反映しているわけではありません。

enterprise.nxt

ITプロフェッショナルの皆様へ価値あるインサイトをご提供する Enterprise.nxt へようこそ。

ハイブリッド IT、エッジコンピューティング、データセンター変革、新しいコンピューティングパラダイムに関する分析、リサーチ、実践的アドバイスを業界の第一人者からご提供します。

enterprise.nxt
ニュースレターのご登録

enterprise.nxtから最新のニュースをメールで配信します。