Delta Lake

Delta Lakeとは

Delta Lakeは、既存のデータレイク上で稼働してその信頼性、セキュリティ、パフォーマンスを向上させる、オープンソースのストレージレイヤーです。Delta Lakesは、ACIDトランザクション、スケーラブルメタデータ、統合ストリーミング、バッチデータ処理をサポートしています。

Delta Lakeの機能

今日の企業は膨大なデータを生成しており、そうしたデータを適切に活用できれば、ビジネスインテリジェントやインサイトの貴重な情報源となります。組織はDelta Lakeを利用することで、新しいデータへのリアルタイムのアクセスと分析が可能になります。

Delta Lakeの仕組み

Delta Lakeは、構造化データ、半構造化データ、および非構造化データ向けのオープンストレージ環境に、インテリジェントなデータ管理およびガバナンスレイヤーを追加することで、単一のデータソースによるストリーミング処理とバッチ処理をサポートします。 

Delta Lakeの特徴とメリット

オープンフォーマット: Delta LakeはオープンソースのApache Parquetフォーマットを利用しており、Apache Spark統合分析エンジンとの完全互換により、強力で柔軟な運用を実現します。

ACIDトランザクション: Delta Lakeは、ビッグデータワークロードのACID (不可分性、一貫性、独立性、耐久性) トランザクションを実現します。連続するトランザクションログのデータに加えられたすべての変更をキャプチャーし、データの完全性と信頼性を維持しつつ、完全かつ正確な監査証跡を提供します。

タイムトラベル: Delta Lakeのトランザクションログは、データに加えられたすべての変更のマスターレコードを提供します。これにより、いつでもデータセットの正確な状態を復元できます。また、データのバージョニングにより、データの分析と実験を完全に再現することが可能になります。

スキーマ適用: Delta Lakeは、堅牢なスキーマ適用によってデータの品質と整合性を保護し、データタイプの正確性を維持するとともに、不良データによる重要なプロセスの破壊を回避します。

マージ、更新、削除: Delta Lakeは、ストリーミングアップサート、変更データキャプチャー、Slowly Changing Dimension (DML) 操作など、法令に準拠した複雑なユースケースのマージ、更新、および削除コマンドを含む、データ操作言語 (DML) 運用をサポートしています。 

Delta Lakes、データレイク、ウェアハウスの違い

Delta Lakeは、データレイクのメリットとデータウェアハウスのメリットを組み合わせることで、スケーラブルでコスト効率に優れたデータレイクハウスを構築します。Delta Lake、データレイク、データウェアハウスの違いをご確認ください。

Delta Lake

次世代データストレージであるDelta Lakeは、リアルタイム分析、人工知能 (AI)、および機械学習 (ML) アプリケーションで必要とされるパフォーマンスとアジリティを犠牲にすることなく、元のデータの完全性を維持します。 

データレイク

データレイクは、複数のフォーマットで大量のrawデータを蓄積したものです。膨大かつ多種多様な情報がデータレイクに蓄積されることにより、分析が煩雑になり、監査やガバナンスを行わなければ、データの品質と整合性が著しく低下します。

データレイクハウス

データレイクハウスは、柔軟性と拡張性に優れたデータレイクにデータウェアハウスの構造と管理機能を組み合わせた、シンプルなオープンアーキテクチャーです。

データウェアハウス

データウェアハウスは、複数のソースから情報を収集して再フォーマットしたものを組み合わせ、分析やレポート用に最適化された構造化データの大規模な統合ボリュームを構築します。独自仕様のソフトウェアや、非構造化データが保存できない場合には、その効果が制限されます。

HPEとDelta Lake

HPE GreenLake Edge-to-CloudプラットフォームはHPE Ezmeralソフトウェアが基盤となっており、KubernetesベースのApache Spark分析とDelta Lake統合向けに最適化されています。

HPE EzmeralとApache Spark 3.0およびDelta Lakeは、ビジネスアナリティクスや機械学習アプリケーション向けに信頼できる整合性のあるデータを提供します。Kubernetesベースのクラスターオーケストレーションにより、データを多用するワークロードで動的拡張を実現できます。

HPE Ezmeral Runtimeは、物理インフラストラクチャとクラウドベースのインフラストラクチャで業界をリードするクラスターおよびアプリケーション管理を実現します。

HPE Ezmeral Data Fabricは、データ管理とテナントストレージを強化します。