画像をタップして拡大する

2019年4月16日

データストリームに含まれる有益な情報の獲得

膨大なデータがあり、そこからどのような有益なコンテンツを引き出したいのかがわかっていれば、分析エンジンは強力なツールになる可能性がありますが、何を求めているのかがわからなければどうなるのでしょうか。

今やデータ分析は情報社会の一部となり、シンプルなダッシュボードからビジネスに大きな効果をもたらす有益な情報を簡単に、しかもほぼリアルタイムで入手できます。そして内外の膨大なソースから引き出されたデータは、主要業績評価指標や企業の戦略計画で重要な役割を果たす知識などを明らかにします。

テクノロジーは企業の管理方法に革命をもたらし、収集可能なデータと収集されるデータの量は増え続けています。そのため、競争力を強化したり、ビジネスへの注力をサポートしたりするためにデータを活用することは、今後も重要なタスクであり続けると思われます。

しかし、データに何を求めているのかがわからなければどうなるのでしょうか。

 

3種類の情報

知識には、次の3つの種類があると言われています。

  1. 知っていることをわかっている情報
  2. 知らないことをわかっている情報
  3. 知らないことをわかっていない情報

統計学者やアナリストはこれまで、データモデルを中心に物事を考えていました。このようなアプローチでは、入力から実際にどのような出力が得られるのかを説明する数理モデルを作成し、そのモデルとデータセットを比較検証して、モデルが正しいかどうかを示すp値を求めます。そして結果が正しく予測されなかった場合は、成果が得られるまでモデルを微調整するか、破棄してもう一度やり直します。

一方Leo Breiman氏は、2001年に発表した『Statistical Modeling: The Two Cultures』という論文で別のアプローチについて説明し、入力と出力を含むデータセットを選択してから、決定木とニューラルネットワークのそれぞれで結果を正しく予測するアルゴリズムを発見できるようにする、それまでとは異なる手法を提唱しました。

リサーチ・トライアングルに拠点を置くデータ分析企業のグローバル分析リーダーによると、ビッグデータのアプローチは、アルゴリズムの発見に取り組む中で大きく変化しました。AIのアプローチでは、最初のモデルを作成するのではなく、膨大なトレーニングおよびテストデータセットを活用し、そのトレーニングセットを処理するよう、ニューラルネットワークやその他の機械学習ツールを設定します。そしてパターンが検出されたら、テストセットに対してそれらを実行し、既知の成果に一致する結果がもたらされるかどうかを確認します。実際、膨大なデータの中から求めている情報を見つけ出せるかどうかをチェックし、そうした情報が見つかったらその妥当性を検証します。

AI主導型のインテリジェントストレージは、クラウドを念頭に構築されており、消費や投資のニーズの変化に対応するのに必要な柔軟性を実現するためのサービスとして提供されます。

データモデルを構築するのとは異なり、この2番目のアプローチでは、入力と出力がどのように関連しているのかを説明する必要がなく、特定の入力に関して、単に出力と思われるものが示されます。

このプロセスで重要なツールの1つとなるのが信号検出ですが、これは、一見したところランダムなデータを選択し、そのデータのパターンを検出できるアルゴリズムを指します。言い換えると、信号検出ではバックグラウンドノイズに対する信号を検出します。ただし、私たちは今も具体的な結果セット、つまりすでに答えがわかっていることではなく、具体的な質問の答えを探し求めています。

 

広範なネットワークを構築する

インタビューを行った別のデータ分析のエキスパートが、データ自体には「何の意味もない」と指摘しているように、多種多様なデータは、さまざまなデータセットをリンクさせる方法を見つけられたときに価値を生み出します。このようなリンクのプロセスは、キュレートされた、クリーンで相互運用可能なセットを作成するために、日常的なデータ準備タスクに加えて行われますが、それは、関連のないデータセットをリンクさせる、有意義かつ正確な方法を見つけ出すことを意味します。

このようなプロセスでは、データとそのフィールドにおけるデータの使用方法に精通した、ドメインエキスパートからの情報が必要とされることが多く、前提に誤りがあると、データの解釈で誤りが生じ、関連するデータセットの間に不適切なつながりが生まれてしまいます。これは、入力として無意味なデータは無意味な出力になる、従来のGIGOの状況とはまったく異なり、データが正確かつ適切であったとしても、正しく解釈されなければ、結果が大きく間違ったものになる可能性があります。

システムにデータを追加するとその価値は向上しますが、プロジェクトも複雑化します。セットを追加するにあたっては、多くの場合に接続されていないサイロからデータにアクセスする必要があり、そのためには、関係者と交渉を行うとともに、データが安全に責任を持って使用されることを関係者に確信してもらわなければならないことがあります。

 

スピードが重要

アルゴリズム検索のもう1つの留意事項として、妥当な時間で実行可能なソリューションを見つける必要があるという点が挙げられます。多くの業界では、急速に市況が変化しており、1日で出荷される製品が業界で成功を収める可能性がある一方、同じ製品の出荷が6か月遅れると完全な失敗に終わってしまう場合があるという、市場投入期間の短縮がビジネスにおける本質的概念となっています。

また同じように、データ分析で得られた情報は、ごく短期間でその価値の多くが失われることがあります。その典型的な例としては、Netflix社がそれぞれの加入者に合った映画を薦めるエンジンを最も進化させることができた人に100万ドルの賞金を贈った、Netflix Prizeが挙げられます。この賞では、2009年にベースラインシステムを10%進化させたチームが賞金を獲得しましたが、同社は、一連のアルゴリズムが非常に扱いにくく、セットアップにコストがかかりすぎるという理由から、それを実装することはありませんでした。さらに、そのアルゴリズムには遅すぎるという欠点もありました。まだ加入者が郵便でDVDをレンタルしていたとき、同社では映画を薦めるまでに数日を要していましたが、ストリーミングビデオへの移行に伴って、それを数秒で行わなければならなくなりました。このように、Netflix Prizeのソリューションは時間がかかりすぎたことで価値が失われてしまったのです。

 

戦いの場を選ぶ

事前に時間を費やして解決したい問題(問題の種類)を特定するのは有益であり、あるデータ分析のエキスパートは、使用可能な最も価値の高いソリューションを探すことを勧めています。特定のビジネスアクティビティのコストを半分に削減できたとしても、その総額が予算のわずかを占める程度であれば、重要な目標にはならないかもしれませんが、それがビジネスの大部分に当てはまった場合、少しの改善が多大な利益につながる可能性があります。

『Data Mining for Dummies』の著者であるMeta Brown氏は、最初に売上高の増加ではなくコストの削減について考えることを推奨しています。その理由としては、売上高を増やすための変更を行う場合、組織内の別の多くの部門から同意を得なければならないケースが少なくないという点が挙げられます。コストは一般的に組織内の各部門で管理されていますが、これは、多くの場合より迅速に、広い支持を取り付けることなく変更が行えることを意味します。

また同氏は、分析の対象としてリスクの低いプロジェクトから開始することを勧めています。これに関しては、日常的なビジネスの運用に重点を置くのではなく、最初に悪化しつつある小規模なプロジェクトの改善に取り組むのがよいでしょう。このような改善によって利益が大きく増えることはありませんが、改善を進めれば、プロセスに確証を与え、より意欲的に業務を遂行できるようになります。

 

プロジェクトのロードマップ

Brown氏は、データマイニングプロジェクトのガイドラインとしてオープン標準も推奨しています。欧州連合の支援を得た業界コンソーシアムによって作成されたCross Industry Standard Process for Data Mining (CRISP-DM)は、「業界、ツール、およびアプリケーションに依存しない」プロセスを設計することを目的としたもので、2000年に最終報告書が公開されました。

このプロセスは循環する設計となっており、各サイクルは、より一層注力できる新たな疑問につながる可能性がある新しい有益な情報が見つかった時点で開始点に戻ります。各サイクルには、以下に示す6つの連続したフェーズがあります。

  1. ビジネスの理解: 目的を決めて状況を評価し、目標を定めたうえでプロジェクトの計画を作成します。
  2. データの理解: 使用可能なデータを収集して調査し、その質を検証します。
  3. データの準備: データの選択、クリーニング、統合、およびフォーマットを行います。
  4. モデリング: モデルの手法を選択してテスト設計を作成し、モデルの構築と評価を行います。
  5. 評価: 結果を評価してプロセスをレビューし、次のステップを決定します。
  6. 展開: ソリューションの展開と監視の計画を立て、結果を報告してプロジェクトを評価します。

なお、フェーズ4のモデリングは、従来の数理モデルの構築を指す場合もあれば、モデルの内部構造について具体的に説明することなくパターンを検出するアルゴリズムにそれを任せることを意味する場合もあります。Brown氏は、プロジェクトに関わるすべてのものをドキュメント化することの重要性を強調しています。これは、多くのプロジェクトで重視されていないものの、プロセスとその結果を評価できるようにするうえで欠かすことのできない作業です。

知らないことをわかっていない情報を検索するのは不可能であるように思われますが、それによって企業に大きなプラスの効果をもたらす可能性がある有益な情報が明らかになる場合があります。これはすでに医療研究で広く用いられている手法ではありますが、多くのリーダーがこのようなデータ分析の重要性を知るようになるのに伴って、他の業界でも幅広く使用されるようになる可能性があります。

 

想定外のデータのマイニング: リーダーのためのアドバイス

  • 一見関係のない膨大なノイズのように見えるデータから有益な情報を見つけ出すのに役立つツールが存在します。
  • プロジェクトを成功させるには、綿密なプランニングとドキュメント化が重要です。
  • データ分析で価値を得られる期間は非常に短く、価値あるガイダンスを提供するには、多く場合、ほぼリアルタイムで有益な情報を作成する必要があります。

この記事/コンテンツは、記載されている個人の著者が執筆したものであり、必ずしもヒューレット・パッカード エンタープライズの見解を反映しているわけではありません。

この記事/コンテンツは、記載されている個人の著者が執筆したものであり、必ずしもヒューレット・パッカード エンタープライズの見解を反映しているわけではありません。

enterprise.nxt

ITプロフェッショナルの皆様へ価値あるインサイトをご提供する Enterprise.nxt へようこそ。

ハイブリッド IT、エッジコンピューティング、データセンター変革、新しいコンピューティングパラダイムに関する分析、リサーチ、実践的アドバイスを業界の第一人者からご提供します。