数据湖

什么是数据湖?

数据湖是云架构中的一处中心位置,能够存放大量原生格式的原始数据。数据湖不同于数据仓库或孤岛,其利用搭载对象存储的扁平架构来维护文件的元数据。

如何开发数据湖?

“数据湖”一词是在 2015 年提出的,但这个概念投入实践应用已超过 10 年。数据湖可满足可扩展数据存储库的需求,后者可存储大量各种类型和来源的文件,供日后分析。

数据湖可视为集中位置,能够保留原始、原生格式的 PB 级数据。与可将数据存储在文件和文件夹的分层数据仓库相比,数据湖利用的是搭载基于对象之存储的扁平架构。大数据运营可通过元数据标记和标识符,更轻松地跨区域查找及检索数据,而且性能更佳。此外,还支持多个应用利用各自的数据格式。

组织为何会选择数据湖?

数据湖允许企业将原始数据转化为可即刻用于基于 SQL 的分析、数据科学以及机器学习的结构化数据,降低延迟。可以更轻松地收集及无限期地保留各种类型的数据,包括流媒体图像、视频、二进制文件等。由于数据湖可响应多个文件类型,也可以作为新数据的“安全港湾”,因此保持最新状态也更轻松。

数据湖所具备的这种灵活性,允许拥有不同技能、处于不同区域和使用不同语言的用户都能够完成需要执行的各类任务。与数据仓库和孤岛形成鲜明对比的数据湖,已经取代了这两种传统的数据存储方式,其向大数据和机器学习应用提供的灵活性也愈发显而易见。

数据湖与数据仓库

尽管数据湖和数据仓库都可用于存储大量数据,但数据的访问或使用方式还存在着多处关键区别。数据湖存储的是几乎所有类型文件的原始数据。另一方面,数据仓库存储的数据已针对特定目的而经过结构化处理和筛选。

数据湖采用开放格式,不对特定文件类型作要求,用户也不必受专有供应商的束缚。与更加结构化的环境相比,数据湖优于数据孤岛或仓库的一点是,其能够存储任何类型的数据或文件。另一个优点是,设置数据湖时不必明确其意图,而数据仓库的作用在创建之时就已明确,是为特定目的而处理的筛选后数据的存储库。

集中式数据湖比孤岛和仓库更具优势,因为其能够消除数据重复、冗余安全策略以及多用户协作困难等问题。对于下游用户,数据湖看似成为查找或插入多来源数据的唯一板块。

相比之下,数据湖的可扩展性以及利用对象存储的能力,让其相当耐用、实惠。由于利用非结构化数据进行的高级分析和机器学习日渐成为当前许多企业的优先要务,能够“引入”结构化、半结构化和非结构化格式原始数据的数据湖成为日益受欢迎的数据存储选择。

了解数据湖架构

数据湖的初始联络点是引入层。简单来说,就是在此处将原始数据添加到数据湖中。内部部署环境使用 Apache Hadoop File System (HDFS),将文件和数据迁移到通常被称为“洞见层”的地方,环境会在此缓存要用于数据分析的相关信息。不论用户选择使用 SQL 还是 NoSQL 进行查询,原始数据的相关洞见都会移到萃取(或处理)层,元数据会在此处转化为结构化数据,供数据管理者和管理员利用。

系统管理和监控在统一操作层执行大量审计,以确保能力、数据和工作流程的管理。此外,也有必要时刻检查是否存在安全性和合规性问题。数据驱动型企业客户需要实时更新才能正确识别数据湖提供的趋势和洞见。

数据湖的存在是为了实现数据访问和使用。若没有目录,用户无法高效分析数据集的完整性,会拖慢操作速度。同样地,监管判定合规性和安全性问题无足轻重,从文件中消除个人识别信息;数据湖能删除特定数据,不会中断使用。

什么是数据湖平台?

基本上所有主要云服务提供商都提供现代数据湖解决方案。内部部署数据中心继续将 Hadoop File System (HDFS) 用作近标准。越来越多的企业采用云环境,然而,也有无数选项可供数据科学家、工程师和 IT 专业人员挑选,这些人想要利用的是将其数据存储移至基于云的数据湖环境后增加的可能性。

使用 JSON 等流数据时,数据湖尤其实用。最常见的三大商业用例是商务分析或智能、聚焦机器学习的数据科学,以及依靠实时数据的数据服务高性能应用。

从 Amazon Web Services (AWS) 到 Microsoft Azure 再到 Google BigQuery 的所有主要云服务提供商,都提供基于云的数据湖所必需的存储和服务。不论组织需要的是哪一个等级的集成,从简单的备份到全面集成,都有诸多选项可选。

数据湖可应用在哪些领域?

与二三十年前相比,大多数业务决策都不再依赖存储在数据仓库中的交易数据。从结构化数据仓库到流动的现代数据湖结构的巨变,是为了响应不断变化的需求,以及现代大数据和数据科学应用具备的能力。

尽管新应用几乎每天都层出不穷,但现代数据湖较常见的几款应用关注的是对新数据的获取和分析。例如,数据湖能够将 CRM 平台的客户数据与社交媒体分析相结合,或与可集成客户购买历史的市场营销平台相结合。将这些内容结合之后,企业能够更好地了解潜在的盈利空间或客户流失的原因。

同样地,数据湖可让研发团队检验假设及评估结果。随着实时收集数据的方式不断增加,数据湖便可造就更快、更直观、更方便工程师访问的存储或分析方式。

HPE 与数据湖

当前企业应用大数据来应对所面临的最大挑战。尽管 Hadoop 一直都能从非结构化数据萃取价值,各组织仍在寻找更新、更好的方式来简化这个过程。

当前的企业投向分析的支出相当庞大,这些支出用于系统、数据科学家、旗下 IT 员工,以及实施、运营及维护其基于 Hadoop 的内部部署数据管理。类似于与任何数据环境,容量需求的变化日新月异。

HPE GreenLake 为企业提供真正基于云的解决方案,这种解决方案具备出色的可扩展性,可从根本上简化 Hadoop 体验,消除复杂性和成本,使企业能够专心从数据中获取洞见。HPE GreenLake 提供一应俱全的端到端解决方案,包含硬件、软件和 HPE 服务。

为了充分发挥数据的潜能,HPE GreenLake 不仅充分利用已包含在内部部署环境中的 HDFS 数据湖,同时还会利用云环境所提供的优势和洞见。