2022年6月30日

非構造化データからインサイトを引き出す鍵となるAI

流動的な情報がますます増えるなかで、それらを理解して活用するための新しいアプローチが求められています。

リーダーのためのアドバイス

  • 非構造化データは、構造化データをはるかに上回る勢いで増えつつあります。企業は、それらのデータから迅速に価値を引き出す方法を学ばなくてはなりません。
  • 非構造化データは本質的に、分析するのが容易ではありません。多種多様なデータタイプがあり、それぞれに独自の分析ニーズがあるためです。
  • 人工知能は、非構造化データから価値を引き出すための鍵となり、そのようなデータの膨大な規模や固有の処理に関する課題に対処できる新たなテクノロジーが登場しつつあります。

組織やコミュニティ、会社、製品では、急速にインテリジェント化が進んでおり、データが生成されるエンドポイントの数は大幅に増加しています。それらのデータについて理解を深めると、その潜在的な価値を見いだすことができます。データは、私たちの仕事や生活にはっきりとした影響をもたらします。スマートカーはその好例で、多くのデータが蓄積され分析されるほど、新しい安全機能の反復設計をうまく行うことができるのです。しかし、実用的なインサイトを収集して新たなプロセスを導き出すには、高度に専門的かつ特別な手法でデータを理解する能力が不可欠です。データは、体系化され構造化されていなければなりません。

ヘルスケア製品からコンシューマー向け製品にいたるまで、さまざまな業界でデータ生成機能が普及するにつれて、非構造化データの割合が増えています。社内メッセージングプラットフォームでの会話内容からヒトゲノムの情報まで、大規模なデータソースについて考えてみましょう。このような例は、私たちが現在理解している分析モデルには必ずしもフィットしませんが、それらのデータの可能性を引き出すことができれば、データの意味を再定義し、必要な情報を最適なタイミングで取得して活用し、優れた成果を上げることができます。

非構造化データと半構造化データには、数十億ドル規模の新たなビジネスチャンスがあり、新たなレベルのデータアクセスやサービスを提供し、インサイトを手に入れることで、価値を創出できます。私たちが日々目にする有名企業では、その取り組みがすでに始まっています。Netflix社はビデオコンテンツのストリーミングサービスを提供し、Uber社やLyft社は地図やドライバーの空き状況、交通情報を組み合わせてライドシェアサービスを提供し、Meta社やTwitter社はイメージやアイデアを共有するソーシャルメディアプラットフォームを提供しています。これらの企業では、非構造化データセットに適用される人工知能が、ビジネスの運営における決定的な役割を担っています。レコメンデーションエンジン、フェイクニュース検出ツール、動的な課金モデルはすべて、非構造化データの分析を通じて収集されたインサイトから生まれたものです。

これらは始まりにすぎません。アメリカ国家地理空間情報局は現在、衛星スキャンや高度マップなど、毎日2エクサバイトの地理空間データを蓄積しており、2025年までに、ヒトゲノム配列のデータだけで40エクサバイトのデータセットになる見込みです。これらの例はいずれも、私たちが利用し始めたばかりの非常に貴重なデータストアです。

ただし、非構造化データの可能性を解き放つには、克服しなくてはならない重要なハードルがあります。この新しい形態のデータの複雑さを理解しているでしょうか。これらのデータセットのサイズと複雑さに取り組む準備はできているでしょうか。今後、そのようなデータから、より優れた数多くのインサイトをいち早く手に入れるには、どのような準備が必要でしょうか。さらに重要なことですが、自動化とAIのアルゴリズムを使って非構造化データをうまく処理し、最適なタイミングで適切な関係者に正しい情報を送ってサービスをタイムリーに提供するにはどうすればよいでしょうか。

非構造化データについて理解する

非構造化データは、そのままの状態では扱いやすいとは言えません。たとえば、クレジットカードの1回の決済で生成されるデータサイズは数バイトですが、シーケンサーから得られるヒトゲノムのサンプル1つのデータサイズはほぼ200GBです (前者のデータの10の9乗倍)。さらに状況を複雑にしているのは、従来のデータと比べたときの非構造化データの形式です。非構造化データは、シーケンス、点群、イメージ、不規則なメッシュなどとして保存され、その形式は、多重解像度、マルチチャネル、非テーブル型、スパースなど、多種多様です。

このような特徴により、非構造化データの分析は本質的に難しいものになっています。すでに確立されている手法や技術が適用できないことも少なくありません。たとえば、AIのアルゴリズムが、ピクセルとしてキャプチャーされた2次元のビデオから車や人を自動検出するようにトレーニングされている場合、3次元の点群としてキャプチャーされた3次元のビデオデータは、そのアルゴリズムで使用できません。いずれの形式のビデオも現実世界の環境をデジタルで表現したものですが、同じように処理できないのです。このことは、メタバース環境をリアルタイムで構築する場合や、ゲノムデータを使ってパーソナライズされた精密医療を提供する場合など、さまざまな使用事例にあてはまります。

現在の構造化されたSQLデータベースやNoSQLキー値ストアのスキーマやクエリ言語に対応する、非構造化データ構造を探索して選別するための標準的なスキーマやクエリ言語は、現時点ではありません。非構造化データの形式を分析する数学や統計の手法は複雑であり、まだ初期の段階にあります。

現時点で最先端の方法は、データをデータレイクに格納して、検索や探索的分析を実行することです。データサイエンティストは、これらの情報を非構造化データの構造化表現に変換し、従来の分析手法や機械学習アルゴリズムを使って分析できます。残念ながら、非構造化データをそのまま処理するワークフローは複雑で計算コストがかかる場合が多いため、従来のデータ分析に比べて明らかに優れた投資対効果を得られることはほとんどありません。

非構造化データに対するAIを準備する

AIは、非構造化データを使ってビジネスの問題を解決し、新しいビジネスチャンスを見つけ出すために重要な役割を果たすようになります。非構造化データの固有の課題とAIの現在の成熟度のギャップを埋めるには、システムアーキテクチャ、ストレージおよび分析サービス、プログラミングモデル、ユーザーエクスペリエンスの全体にわたる適応性が求められます。

たとえば、さまざまな形式のデータをさまざまな規模で処理し、必要な速度と正確さで分析結果を生成する、より優れた処理を実行するためのテクノロジーが必要となります。これには、パフォーマンスとスケーラビリティを最優先に設計された、高度に特化したサービスの開発が含まれます。また、統合された学習プロセスに最新の技術を組み合わせるという新しい観点がアルゴリズム自体に必要となります。一言で言えば、対象の情報、仮定、追加情報、推定といった要素を考慮して検索を行うプラットフォームが求められるのです。

非構造化データを必要な規模とサイズ、複雑さのレベルで処理する理想的なソリューションには、以下に示すいくつかの重要な機能が必要です。

  • さまざまな形式のデータをホストして処理できる
  • AIモデルを使用してホストされているデータのパターン検索を実行できる
  • データベースの取得 (完全一致検索)、機械学習を用いたパターン検索 (あいまい検索)、ユーザー定義関数 (ドメイン固有の検索) を組み合わせて使用できるクエリ言語をサポートしている
  • データベース運用に使いやすいプログラミングインターフェイスを提供する
  • 新しいサーバーアーキテクチャー (共有メモリ、分散メモリ、ファブリック接続メモリのテクノロジー) で実行される
  • ハイパフォーマンスコンピューティングの構成が組み込まれており、増え続けるデータサイズにスケールアウトで対処し、インサイトを得るまでの時間をスケールアップで短縮することができる

 

非構造化データへの取り組みを試した組織では、初期のベンチマークは有望なものでした。顧客、システム、組織の全体を理解できるという特徴は、非常に大きな可能性があることを示しています。ただし、ハイパフォーマンスシステムを全面的に採用した事例はまだありません。AIとそのような種類の非構造化データセットの統合を進めるにつれて、従来の手法やインターフェイスを見直すことが不可欠になります。企業がこのようなデータから価値を引き出して成功を収めるには、今すぐ始める必要があるでしょう。

この記事/コンテンツは、記載されている特定の著者によって書かれたものであり、必ずしもヒューレット・パッカード エンタープライズの見解を反映しているわけではありません。

enterprise.nxt

ITプロフェッショナルの皆様へ価値あるインサイトをご提供する Enterprise.nxt へようこそ。

ハイブリッド IT、エッジコンピューティング、データセンター変革、新しいコンピューティングパラダイムに関する分析、リサーチ、実践的アドバイスを業界の第一人者からご提供します。

enterprise.nxt
ニュースレターのご登録

enterprise.nxtから最新のニュースをメールで配信します。