データレイクハウス
データレイクハウスとは
データレイクハウスは、データレイクの柔軟性と拡張性のメリットにデータウェアハウスのデータ構造とデータ管理機能を組み合わせた、ハイブリッドデータ管理アーキテクチャーです。
この数十年間のデータウェアハウスの変化
組織は、数十年前からデータウェアハウス (エンタープライズデータウェアハウス (EDW) とも呼ばれる) を利用して、ビジネスに有益な情報の取得に必要となるデータを保存および管理してきました。しかし、年を追うごとに生成されるデータのタイプ、ソース、量が増加し、従来のデータウェアハウスアーキテクチャーでは、日々企業で生成されているビジネスデータのスピード、種類、ボリュームに十分に対応できなくなってきました。また、人工知能 (AI) と機械学習 (ML) テクノロジーを導入する企業が増えるなか、こうしたツールで使用されるアルゴリズムでデータへの直接アクセスが求められるようになりました。
データレイクとは
データレイクは、企業のさまざまなビジネスアプリケーション、システム、およびデバイスから収集する膨大な量の非構造化データと半構造化データの保存に使用されるアーキテクチャーです。データレイクは通常、データを一般的なオープンファイル形式で保持するファイルAPIを含む、低コストのストレージインフラストラクチャを使用しています。これは、データレイクが大規模なデータの保存に有用であり、AIやMLのアルゴリズムに使用できることを意味していますが、データレイクはデータ品質やガバナンスの要件を満たしていません。不十分な整理や管理により、整理されていない無関係の重複したデータがデータレイクに追加されると、データスワンプと呼ばれるものになり、中のデータから有益な情報を引き出すことが困難になる可能性があります。
データレイクハウス、データウェアハウス、データレイクの違い
データウェアハウス
データウェアハウスは、多種多様なソースから単一の整合性のあるデータストアに集約された、膨大なビジネスデータを集めたものです。このタイプのプラットフォームは、大量の構造化データの分析に特化した設計となっています。データウェアハウスシステムは、さまざまなビジネスインテリジェンス (BI) システムから定期的にデータを取得し、そのデータをすでにデータウェアハウス内にあるデータの形式と基準に合わせてフォーマットしてからインポートします。それによってデータを整理されたファイルやフォルダーに保存でき、レポートやデータ分析にすぐに使用できます。
データレイク
データレイクは、すべてのエンタープライズデータソースのあらゆるタイプのrawデータ、構造化データ、および非構造化データをネイティブ形式で大規模に保存します。データはそのままデータレイクに追加されるため、新規データのフォーマットをすでにシステムにある他のデータのフォーマットに合わせる作業は発生しません。データレイクは、データをAI/MLシステムやビッグデータ分析に使用できるようにする際に重要な役割を果たしています。
データレイクハウス
データレイクハウスは、データレイクの柔軟性と拡張性のメリットにデータウェアハウスの類似データ構造とデータ管理機能を組み合わせた、新しいオープンアーキテクチャーです。この統合機能により、データサイエンスチームは、複数のシステムにアクセスすることなくデータを使用できるアジリティが得られます。また、データレイクハウスでは、データサイエンティストが最も完全で最新のデータを利用できます。
データレイクハウスがデータスワンプを防止する仕組み
データレイクハウスの柔軟性と拡張性、およびその構造と管理機能を組み合わせることで、データサイエンスチームは、複数のシステムにアクセスすることなくデータを使用できるアジリティが得られます。また、データレイクハウスにより、データサイエンティストはビジネス分析、AIおよびMLプロジェクトに使用できる、最も完全で最新のデータを確保できます。
データレイクハウスのメリット
データレイクハウスのアーキテクチャーは、以下によって柔軟性を向上させます。
1. クエリエンジンをデータレイクに直接接続し、シンプルな抽出、変革、ロード (ETL) ジョブを不要にする。
2. 複数のツールで複数のプラットフォームのデータを管理するのではなく、単一のツールでデータを処理してデータの重複を減らす。
3. 複数のBIツールと分析ツールへの直接接続を可能にする。
4. 機密データをデータプール間で移動する必要をなくして一元的に管理できるようにすることにより、データガバナンスを簡素化する。
5. オブジェクトストレージを使用して1つの場所にデータを保存できるようにしてコストを削減する。
データレイクハウスの構成要素
全体で見ると、データレイクハウスのアーキテクチャーには2つの主要レイヤーがあります。レイクハウスプラットフォームがストレージレイヤー (つまりデータレイク) へのデータの取り込みを管理します。次に、処理レイヤーが、データをデータウェアハウスにロードしたり、独自のフォーマットに変換したりすることなく、各種ツールを使用してストレージレイヤーにあるデータのクエリを直接実行できます。データはその後、BIアプリケーションとAI/MLツールの両方で使用できるようになります。
このアーキテクチャーはデータレイクの優れた経済性をもたらしますが、どのようなタイプの処理エンジンでもこのデータを読み取れるため、組織は作成されたデータをさまざまなシステムによる分析に柔軟に利用できます。このように、高パフォーマンスおよび低コストで処理と分析が行えます。
また、このアーキテクチャーは、以下に示すACID (不可分性、一貫性、独立性、耐久性) の原則に準拠したデータベーストランザクションをサポートしているため、複数の関係者が同時にシステム内のデータを読み書きできます。
不可分性: トランザクションを処理するときに、トランザクション全体が成功するか、1つも成功しないことを意味します。プロセスが中断した場合でも、データの損失や破損を防ぐことができます。
一貫性: トランザクションが予測可能かつ一貫した方法で行われることを意味します。事前定義済みのルールに従って、すべてのデータが有効であり、データの完全性が保たれていることを保証します。
独立性: トランザクションが完了するまで、システム内の他のトランザクションによる影響を受けないことを保証します。そのため複数の関係者が、他の関係者に干渉することなく、同じシステムのデータを同時に読み書きできます。
耐久性: トランザクションが完了すると、システム内のデータに加えられた変更が、システム障害が発生しても失われないことを保証します。トランザクションの結果として行われた変更は、永続的に保存されます。
HPEのデータレイクハウスソリューション
HPE Ezmeral Unified Analyticsは、KubernetesベースのApache Spark分析と、オンプレミスでDelta Lakeを使用する統合データレイクハウスのシンプルさを兼ね備えた、業界初のクラウドネイティブソリューションです。レガシーなデータとアプリケーションをモダナイズし、データを多用するワークロードをエッジからクラウドに至るまで最適化することで、高度な分析に必要な拡張性と柔軟性を提供します。オープンかつハイブリッドな仕様としてゼロから構築された、この100%オープンソースのスタックで、データプラットフォームのベンダーロックインを回避できます。
HPE Ezmeral Unified Analyticsはオンプレミスおよびハイブリッド環境向けに最適化されており、オープンソースのソフトウェアを使用して、必要に応じてデータを移動できるため、組織のデータをすべてパブリッククラウドに保存する必要がなくなります。大規模なエンタープライズデータセットやレイクハウスに対応できる柔軟性と拡張性を備えているため、お客様は場所を問わず、高度な分析に必要な柔軟性が得られます。
HPE GreenLake Edge-to-Cloudプラットフォームで使用できる、この統合データエクスペリエンスでは、チームは既存のデータアクセスパターンを維持したまま、あらゆる場所にあるデータに安全に接続できます。また、オンプレミスに展開されたApache Sparkに最適化された、スケールアップ型データレイクハウスプラットフォームも含まれています。データサイエンティストは、オンプレミス、エッジ、およびパブリッククラウド全体のデータとアプリケーションをサポートする、柔軟な統合分析プラットフォームを活用して、AI/MLワークフローを迅速に進めることができます。