2021年1月8日

データファブリックによる包括的なデータ戦略の実現

データ主導型の企業は、フォーマットや場所に関係なく、あらゆるデータを管理および使用するための強力な基盤を必要とします。

 

今日の企業にとってデータは中核的な資産であると同時に、深刻な課題でもあります。企業データ内には、自社の製品、資産、顧客、人員などに関する膨大な企業ナレッジが含まれています。

通常こうしたデータは、多種多様なフォーマットで作成されて、広範なアプリケーションによって管理されており、さまざまな場所に存在しています。そのため従業員が必要とするデータへのアクセスが難しい、あるいは冗長性に起因するリスクが潜んでいるケースも珍しくありません。

また多くの組織には、企業データの全体像を把握している個人やグループが存在しません。実のところ全体像の把握は極めて難しく、高度なソフトウェアインフラストラクチャを必要とします。そこで注目されているのがデータファブリックです。データファブリックを実装すれば、データがどこに存在するかにかかわらず、使用権限を持つすべての人に、ニーズに適したフォーマットで、あらゆる企業データを提供することが可能になります。

 

管理されていないデータエコシステムの問題点

企業データはさまざまな場所に保管されています。単一のクラウド内に存在しているデータもあれば、複数のクラウド内に存在し、複数の異なるクラウドシステムによって管理されているデータもあるでしょう。企業サーバー上のSQLデータベース、Microsoft Officeドキュメント、テキストファイルなどの中にもデータは存在しています。

データのコピーが複数存在しているケースも珍しくありません。管理者によっては、クリティカルデータベースのメインストアへの直接アクセスをユーザーに許可するのは危険という判断のもと、そのスナップショットやサブセットをユーザーに提供しています。このような方法を採ると、ニーズに適したフォーマットでデータを提供できるため、従業員の側にもメリットがあります。また、従業員が業務に使用しているソフトウェアでは、メインデータベースを (少なくとも効率的には) 直接操作できない場合もあります。

しかしながらこの場合、ユーザーがスナップショットを取得した時点で、データが最新状態でなくなっている可能性があります。言うまでもなく、そうしたデータから得られた結果には最新状態が反映されていません。

互換性のない複数のリモート環境にまたがるデータの管理、転送、および保護が可能なデータファブリックは、マルチクラウドデータ戦略に欠かせない要素です。

 

日常的なデータの混乱は許容されない

コンピューターに長く関わっている人ほど、こうした混乱は当たり前の、あるいはやむを得ない状況と感じられるかもしれません。しかしながらこれは真実ではなく、こうした状況は真のマルチテナントシステムに対応した包括的なデータ戦略が存在していないことが原因です。

言うまでもなく、ユーザーが望むアプリケーションを介してデータにアクセスできないのは決して好ましいことではありません。同様に、ユーザーが業務上の必要性と権限を有するにもかかわらず、社内ネットワーク上のデータにアクセスできない、あるいは 正確性が疑わしい部分的データセットを業務に使用していることも問題です。

またデータリクエストがIT部門に負担をかけ、ビジネスを滞らせる要因となるのも、決してやむを得ないことではありません。このような非効率性が、新規のプロジェクトやイノベーションのコストを押し上げたり、状況の変化への対応を阻害したりするようなことがあってはなりません。

こうした問題はいずれも、管理された一貫性のあるデータ戦略の欠如に起因しており、顧客やパートナーに対するサービスレベル契約 (SLA) の達成を脅かす恐れがあります。適切なデータ戦略が存在しなければ、機械学習や大規模な分析クエリのような、業務上の正当性はあるものの高負荷のアプリケーションが実行されている場合に、SLAに従ってスケジュールされたイベントを予定どおりに開始および完了できない可能性があります。

ユーザーが望むデータアクセス方法をすべて予測するのは、熟練したITプロフェッショナルであっても困難です。そのため企業が提供しているファシリティがユーザーのニーズに応えきれず、このことがシャドーITがはびこる原因となっています。ユーザーが望むソフトウェアを使用して、必要なデータにアクセスできるようにすることで、こうした問題の解消が可能になります。

 

包括的なデータ戦略とはどのようなものか

包括的なデータ戦略は、データの価値を最大限に引き出せる多目的システムをコスト効率よく運用して、有用なアプリケーションやプロジェクトをタイムリーに本稼働することを可能にします。アナリスト、開発者、データサイエンティストらは、IT部門に過度の負担をかけたり、予算を超過したりすることなく、包括的かつ一貫性のあるデータを使用でき、新たなデータソースの追加も容易になります。

またこの包括的なアプローチにより、ハードウェアやシステム管理の不必要な重複が解消されるとともに、ソリューションの構築方法も簡素化されることで、リソースの有効活用が促進されます。

このようなメリットをすべて実現するために、データファブリックは以下に示す重要な機能を備えていなければなりません。

  • グローバルネームスペース: データがオンプレミスに存在するか、パブリッククラウドやプライベートクラウド内に存在するか、あるいはネットワークエッジに分散しているかにかかわらず、一貫性のある単一のグローバルネームスペースを介してすべてのデータにアクセスできなければなりません。
  • 複数のプロトコルとデータフォーマット: HDFS、POSIX、NFS、S3、REST、JSON、HBase、Kafkaなど、広範なプロトコル、データフォーマット、およびオープンAPIを実装している必要があります。
  • ストレージとアクセスのポリシーベースの自動最適化: データファブリックは、どのような場合にデータをホット、ウォーム、またはコールドストレージに保管するか、あるいはクラウドとオンプレミスのどちらに保管するかといった、重要なストレージポリシーを指定するための手段を提供できなければなりません。
  • 迅速に拡張可能な分散型データストア: エンタープライズデータのニーズは急速に増大する可能性があり、データファブリックはこうしたデータの急増を阻害することなく、迅速に対応できなければなりません。
  • マルチテナンシーとセキュリティ: データファブリックは、データがどこに存在しているか、あるいはどのようなタイプのシステム上で動作しているかにかかわらず、認証、認可、およびアクセス制御を一貫性のある形で実行可能なセキュリティスキームを持っていなければなりません。
  • 大規模な弾力性: 使用率が高い状況下でもインスタントスナップショットを作成可能で、あらゆるアプリケーションに一貫性のあるデータを提供できなければなりません。

 

セキュリティの側面は非常に重要なため、ここで改めて確認しておきましょう。データファブリックは、企業全体にわたり、あらゆるデータに対して一貫性のあるセキュリティフレームワークを提供できなければなりません。そのためにはクラスターレベルの権限とアクセス制御を定義するための完全なブール式が必要ですが、これはサイロ化されたアプリケーションには不可能です。

 

データファブリックの役割に含まれないこと

リレーショナルデータベース管理システム (RDBMS) は特定のタスクを得意としており、そうしたタスクにはRDBMSを使用すべきです。RDBMSの機能をファブリックに無理やり組み込むのは、不得意な役割をRDBMSに担わせるのと同様に愚かなことですが、こうした無駄な努力がしばしば行われています。

今後RDBMSは、これまでのようなごく一般的なツールではなく、より専門的なツールになっていくと予想されます。多様なフォーマットやプロトコルに対応したデータファブリックを使用することで、開発者は解決すべき問題に最適なソリューションをより柔軟に選択できるようになります。

ETL (抽出、変換、ロード) のような処理は、今後も不要になることはないものの、必要性は減少すると予想されます。ETLとは、あるシステム上のデータを、データの表現方法が異なる別のシステムにコピーすることを意味します。こうした処理は、RDBMSをはじめとする、ファブリックに含まれない特殊なシステムを取り扱う場合に、今後も時折は必要になると思われます。一方データファブリックが存在していない環境では、データアクセスの際にETLが頻繁に必要とされます。

 

データファブリック: リーダーのためのアドバイス

  • データとストレージは別物であり、それぞれに異なる戦略が必要とされます。
  • ITプロフェッショナルであっても、ユーザーが望むデータの使用方法をすべて予測するのは不可能です。
  • 適切なデータ戦略を実装すれば、データを危険にさらすことなく、ユーザーが必要に応じてマスターデータセットを使用できるようになります。

この記事/コンテンツは、記載されている特定の著者によって書かれたものであり、必ずしもヒューレット・パッカード エンタープライズの見解を反映しているわけではありません。

enterprise.nxt

ITプロフェッショナルの皆様へ価値あるインサイトをご提供する Enterprise.nxt へようこそ。

ハイブリッド IT、エッジコンピューティング、データセンター変革、新しいコンピューティングパラダイムに関する分析、リサーチ、実践的アドバイスを業界の第一人者からご提供します。

enterprise.nxt
ニュースレターのご登録

enterprise.nxtから最新のニュースをメールで配信します。