画像をタップして拡大する

2021年9月17日

データサイエンティストがデータファブリックの核心に迫る

このQ&Aでは、データファブリックとは何か、また企業にとってのデータファブリックの意味を詳しく見ていきます。
企業にとってデータが最も価値のある資産の1つであることは、周知の事実です。しかし、データを上手く活用するにはデータの保存、管理、移動と、それへのアクセスが必要で、それほど簡単ではありません。その理由の1つとして、企業のデータは通常多くのクラウドシステム、データセンター、データクラスターに分散されていることがあります。

そこで登場するのがデータファブリックです。データファブリックは、さまざまなロケーションに分散され、複数の異なるアプリケーションによって使用されるデータに、統合型のデータレイヤー内で、同じ管理およびセキュリティ体制でアクセスしてリアルタイムで分析することを可能にします。

「データファブリック」という用語はわかりづらいかもしれません。これはデータのアクセスおよび使用方法のメタファーですが、データファブリックは非常にリアルなリソースでもあります。データファブリックとは何かを正確に把握するために、今回は2人のエキスパートとお話しました。ヒューレット・パッカード エンタープライズのデータファブリック部門チーフテクノロジストであるTed Dunningと、ヒューレット・パッカード エンタープライズのプリンシパルテクノロジストのEllen Friedmanです。

DunningとFriedmanは両者とも、2019年にHPEがMapR Technologies社を買収するまで、同社で働いていました。Friedmanは大規模データの分野で豊富な経験を持っています。MapR Technologies社でチーフテクノロジーオフィサーを務めていたDunningは、多くの企業に向けて大規模なデータおよび機械学習システムを構築してきました。

誤解されている部分が多々あると思うのですが、まずはデータファブリックを正確に定義していただけますか?

画像をタップして拡大する

Ted Dunning: 業界には大まかに言って3つの定義があります。まずは間違った定義を紹介します。最初の定義は、データファブリックは単なるメタデータ管理システムだというものです。その他のデータソースを仮想化し、隠してしまうシステムです。このようなシステムでは、多くのものが足かせとなります。まず、メタデータを発見しなければならないことが足かせとなり、基盤となるストレージプラットフォームとの一貫性のなさが足かせとなります。そして、ほとんど常に非常に低速だということが足かせとなります。そのようなデータファブリックは負担が大きく、私たちが考えるデータファブリックではありません。

2つ目の定義はかなり近いのですが、データセンターのあらゆるマシンからファイルレベルのデータにアクセスできることを指しています。これは非常に惜しいですが、データファブリックを包括的に定義していません。

私たちが信じているのは3つ目の定義で、データファブリックをより広い意味で捉えています。データファブリックは、データを提供する複数のクラスター全体のアクセシビリティを指します。これには大規模、小規模、リモート、ローカルのクラスターが含まれます。これらのクラスターはすべて、同じパス名で相互に到達できます。私たちの考えるデータファブリックでは、必要となる場合はコンピューティング能力をこれらの場所に移動することもできます。そして、「必要となる場合」は頻繁にあります。あるいは、データファブリックがローカルポイントにデータを移動することがより適切な場合、ローカルで保存および処理することができます。

多くの場合、データソースは企業全体の多数の場所に分散されています。そのため、すべてのデータをエッジで収集し、全体像を把握するために一か所に統合する必要がありますが、ローカルでデータを活用するためにまた戻す必要があります。

3つ目のデータファブリックの定義では、その影響力は桁違いです。

そのようなデータファブリックが真に革新的なのはなぜですか? それ自体の特徴ではなく、それによって企業に何が可能になるかという観点から教えてください。

画像をタップして拡大する

Ellen Friedman: 「革新的」という言葉は、何にでもお手軽に使われます。しかし、データファブリックは本当に革新的で、まったく新しい発想のすばらしいテクノロジーです。

データファブリックを設計および構築した人たちは、それによって何を可能にするべきかをきちんと考えていました。具体的なゴールを頭に描いていたのです。しかし、イノベーションを成功させる鍵は、それを構築する人がビジョンを持っているかどうかだけではありません。それを使用する人がビジョンを持っているかどうかも重要です。そして、データファブリックは非常に新しい概念です。「データファブリック」という用語の目的の1つは、人々がその概念を理解し、ユーザーがデータファブリックを最大限に活用できるようにすることです。

データファブリックによって、世界の仕組みはこれまでユーザーが考えていたのとは違ったものになります。その利点を最大限に高めるために、企業はユーザーの行動がどのように変わるかを把握する必要があります。

根本的な変化として、データファブリックはユーザーがデータを用いて行うあらゆる種類の作業に影響します。個々のユーザーが開発者、アナリスト、データサイエンティスト、ITチームのメンバーとして行う必要がある、あらゆる作業にです。また、データファブリックは、組織全体のあらゆるニーズに対応します。

Dunning: その通りです。また、アプリケーション開発者のニーズとDevOpsのニーズをITインフラストラクチャのサポートチームから分離することもできます。これによって、DevOpsは背後の細々とした懸念を気にすることなく、非常に正確にインフラストラクチャの問題に対応することができます。

このように懸念事項を分離するために鍵となるのが、データファブリックボリュームです。このボリュームの構造はディレクトリに似ていますが、特別な管理機能を備えています。たとえば、SSDからアクセスする必要があるデータと、最初はサンディエゴに保管し、その後東京にミラーリングする必要があるデータがあるとします。また、3日間は非常に高いパフォーマンスを必要とし、その後はコストを抑えて管理すべきデータもあるとします。データファブリックでは、異なるボリュームを使用することで、これらの異なる要件をそれぞれ満たすことができます。開発者やアプリケーション運用者は、簡単に対応することができます。

管理者の目には、単にインフラストラクチャ機能のまとまりのようなものとして映ります。その中に何があるかを気にすることなく、それぞれのデータファブリックボリュームを構成できます。わかりやすいインターフェイスは、まるでインフラストラクチャについて頭の中で考えるように、直感的に操作できます。

つまり、インフラストラクチャチームがハードウェアを変更、またはアップグレードしたり、ストレージクラスターを別のエリアに移動した場合も、運用チームや開発者チームは影響を受けず、必要なデータを使用できるということですね。

Friedman: 今おっしゃったことは、データファブリックのセルフヒーリングという機能を土台としています。ディスクやマシンに障害が発生した場合も、システム全体の信頼性と可用性は完全に保持されます。データの損失はなく、ユーザーの作業が中断されることもありません。

システム管理者は通知を受け取り、1つまたは複数のマシンに障害が発生したことを把握します。そして、どこかの時点でそれを修復する必要があります。しかし、今おっしゃった例のように、データファブリックはそれに対応できます。データファブリックに依存するシステムは実行され続けます。ユーザーは別のマシンのデータにアクセスしていることに気づきませんし、気づく必要もありません。これは、ハードウェアを追加または変更する場合にも当てはまります。

形式の異なる、別のタイプのデータについてはどうでしょうか。企業は異なる種類のデータをどのように使用すればよいのですか?

Dunning: それは、大部分がアプリケーションの問題です。データファブリックは問題なくそれらを処理できます。データの形式を考慮する必要があるのはアプリケーションソフトウェアです。実際のデータアクセスAPIを豊富に提供しているため、それも問題ありません。たとえば、Unixのテープアーカイブに使用されるtarや、科学的なアーカイブ形式であるHDF5 (Hierarchical Data Formatバージョン5) について考えてみましょう。どちらの形式もデータファブリックで使用できます。具体的に、データファブリックでtarやHDF5をサポートしていると指摘する必要はありません。豊富な機能を搭載しているので、アプリケーションは必要に応じてこれらのデータタイプにアクセスできます。

Friedman: データファブリックをこのような統一型のデータレイヤーとするには、多くのデータ形式に対応できるだけではなく、複数のオープンAPI経由のアクセスを許可する必要があります。また、レガシーのアプリケーションのように異なるツールで書かれたアプリケーション、機械学習ツール、POSIXファイルアクセスを使用するアプリケーション、またHDFSを使用するApache Sparkのようなものまで、あらゆるものがデータファブリックディレクトリのデータにアクセスできます。

専用のシステムにデータをコピーする必要はありません。そして、このように複数のAPIで同じデータファブリックにアクセスできることが、大きなイノベーションなのです。それぞれのAPIに向けた別個のシステムは必要ありません。

大手の自動車製造業者は、グローバルなテストデータを管理、保存、移動できることで、より迅速かつ効率的に自動運転車を開発しています。
TED DUNNING ヒューレット・パッカード エンタープライズのデータファブリック部門チーフテクノロジスト

この話がCIOにとって重要なのはなぜですか?

Friedman: 今回の話の1つは、現在の規模に対応できるシステム (非常に大規模なシステムも含む) だけではなく、スケーラビリティを備えたシステムが必要だということです。増加するデータサイズだけでなく、アプリケーションタイプの複雑性の増加にも合わせて拡張でき、そのために再設計が必要ないシステムです。

Dunning: 企業は、データファブリックによって多くの成功を収めています。たとえば、大手の自動車製造業者は、グローバルなテストデータを管理、保存、移動できることで、より迅速かつ効率的に自動運転車を開発しています。

製造業者はテスト車両からデータを収集し、中央のインフラストラクチャに簡単に同期できます。それから企業の数多くの開発サイトでデータを共有し、データサイエンティストと開発者がコラボレーションできるようにします。

Friedman: いくつかの最大手の小売業者も、何年にもわたってデータファブリックを使用しています。これらの小売業者は、データの需要への対応とコラボレーションの向上という2つの重要な目的のために、データファブリックを活用しています。

小売業者では時期による決まったパターンがあり、休暇シーズンには販売量が大きく増加します。それに対応するために、小売業者は特別な戦略室を設け、追加のITリソースを導入することが一般的です。これによって休暇中の膨大なトラフィックを処理するため、システムには負荷が追加されます。しかし、データファブリック上で運用されていた一部のビジネスは、休暇中のトラフィックのために特別なリソースを必要としませんでした。我々のデータファブリックを使用することで、システムはデータ使用量の急増に対応でき、必要なのは数人のシステム管理者だけでした。

また、小売業者はコラボレーションを向上させることもできています。分析チーム、ビジネスチーム、機械学習の担当者がデータを共有することができるためです。

Dunning: これに関してすばらしい話があります。社員食堂で、異なるチームに所属する数人が一緒に昼食を食べていました。席に着くと、その中の1人が言いました。「包括的なWebクローラーさえ使えれば、プライスマッチ機能を作れるのに。でも、予算内でそんなWebクローラーを使うのは無理だ」 同じ席にいた別のチームの社員が答えました。「それなら、こっちですでに使っているよ!」

彼らは同じデータファブリックを利用していたので、その午後には新しい機能のプロトタイプを作成しました。その機能はその後進化して、最終的にはなんと数十億ドルの限界収益を生むことになったのです。

リーダーへのアドバイス

  • 必要な際にデータに簡単にアクセスできることで、コスト削減と収益増加の機会が生まれます。
  • 現在の企業は複雑で、データインフラストラクチャを統合して情報共有を促進するシステムを必要としています。
  • データファブリックによって、アプリケーションはデータソースの変更とエラー変更の影響を受けにくくなります。

この記事/コンテンツは、記載されている特定の著者によって書かれたものであり、必ずしもヒューレット・パッカード エンタープライズの見解を反映しているわけではありません。

enterprise.nxt

ITプロフェッショナルの皆様へ価値あるインサイトをご提供する Enterprise.nxt へようこそ。

ハイブリッド IT、エッジコンピューティング、データセンター変革、新しいコンピューティングパラダイムに関する分析、リサーチ、実践的アドバイスを業界の第一人者からご提供します。

enterprise.nxt
ニュースレターのご登録

enterprise.nxtから最新のニュースをメールで配信します。