Delta Lake

什么是 Delta Lake?

Delta Lake 是一个运行于现有数据湖之上的开源存储层,可以提高现有数据湖的可靠性、安全性和性能。Delta Lake 支持 ACID 事务、可扩展元数据、统一流传输和批量数据处理。

Delta Lake 有什么作用?

如今的公司会产生大量的数据,在合理利用的前提下,这些数据可以成为商业智能和洞见的宝贵来源。Delta Lake 可以帮助组织实时访问和分析新数据。

Delta Lake 如何运作?

Delta Lake 为结构化、半结构化和非结构化数据的开放存储环境添加一个智能数据管理和治理层,从而支持来自单一来源的流传输和批操作。 

Delta Lake 有什么特点和优势?

开放格式:Delta Lake 使用开源的 Apache Parquet 格式,与 Apache Spark 统一分析引擎完全兼容,可实现强大且灵活的操作。

ACID 事务:Delta Lake 支持面向大数据工作负载的 ACID(原子性、一致性、隔离性、持久性)事务。它通过序列化事务日志捕获对数据所做的所有更改,从而保护数据的完整性和可靠性,并提供完整且准确的审计跟踪。

时间旅行:Delta Lake 的事务日志会提供主记录,记录对数据所做的每一次更改,这使得在任何时间点重新创建数据集的确切状态成为可能。数据版本控制使数据分析和实验完全可重现。

模式执行:Delta Lake 通过强大的模式执行来保护数据的质量和一致性,从而确保数据类型的正确性和完整性,防止不良数据破坏关键流程。

合并、更新、删除:Delta Lake 支持数据操纵语言 (DML) 操作,包括合并、更新和删除命令,以满足合规性和复杂用例的要求,如流更新插入、变更数据捕获、缓慢变化维度 (SCD) 操作等。 

Delta Lake、数据湖与数据仓库

Delta Lake 兼具数据湖和数据仓库的优势,打造出可扩展且经济高效的湖仓一体。了解 Delta Lake、数据湖、湖仓一体、数据仓库之间的区别。

Delta Lake

作为数据存储的演化,Delta Lake 可以保留原始数据的完整性,而不牺牲实时分析、人工智能 (AI) 和机器学习 (ML) 应用所需的性能和敏捷性。

数据湖

数据湖是多种格式的原始数据大量积累的产物。数据湖中庞大的信息量以及纷繁的信息种类使分析变得愈加繁琐,如果缺乏审计或治理,数据的质量和一致性便可能不可靠。

湖仓一体

湖仓一体将数据湖的灵活性和可扩展性与数据仓库的结构和数据管理功能相结合,将它们融于单一的开放平台。 

数据仓库

数据仓库从多个来源收集信息,然后将信息重新格式化并组织成大型的整合式结构化数据卷。该数据卷经过优化,可用于分析和报告。但是,这需要专有软件且无法存储非结构化数据,这限制了数据仓库的效用。

HPE 与 Delta Lake

HPE GreenLake 边缘到云平台基于 HPE Ezmeral 软件而构建,针对基于 Kubernetes 的 Apache Spark 分析进行了优化,并与 Delta Lake 集成。

HPE Ezmeral 和带有 Delta Lake 的 Apache Spark 3.0 为业务分析和机器学习应用提供可靠且一致的数据。基于 Kubernetes 的群集编排能够为数据密集型工作负载提供动态扩展。

HPE Ezmeral Runtime 为物理基础设施和基于云的基础设施提供行业领先的群集和应用管理。

HPE Ezmeral Data Fabric 提升数据管理和租户存储服务。