
数据湖 什么是数据湖?
数据湖是一种存储库,提取到其中的数据采用了其原始形式,不做任何修改。数据湖不同于数据仓库或孤岛,其利用搭载对象存储的扁平架构来维护文件的元数据。作为较大数据管理平台的组成部分时,数据湖能够发挥较高实用价值。此外,其也能够与现有数据和工具紧密集成,以促成更强大的分析。目标在于发掘洞见和趋势,同时保持安全性、可扩展性和灵活性。

- 数据湖释义
- 组织为何会选择数据湖?
- 数据湖的优势
- 数据湖与数据仓库的比较
- 什么是数据湖平台?
- 目前数据湖可应用在哪些领域?
- HPE 与数据湖
数据湖释义
数据湖用于将大量采用其原生、原始格式的数据存放在一个中心位置(通常是云中)。只要利用实惠的对象存储、开放格式和云可扩展性,许多应用就可利用数据湖中数据所蕴含的价值。
- 所有类型的定性数据,包括非结构化(通常称为大数据)和半结构化数据都可存储。对于当下的机器学习和高级分析用例来说,这一点十分关键。
- 在联网空间中,将基础设施和端点遥测看作描述符或分类器,而描述符或分类器可馈送 AI/ML 模型和算法以识别基线和异常。
- 作为客户,您的基础设施和端点客户端会馈送数据湖,您的联网供应商会维护数据湖以交付基于 AI 的工具来协助 IT 更高效地运营网络。


组织为何会选择数据湖?
数据湖允许企业将原始数据转化为可即刻用于基于 SQL 的分析、数据科学以及机器学习的结构化数据,降低延迟。可更轻松地收集及无限期地保留所有类型的数据,包括流媒体图像、视频、二进制文件等。由于数据湖可响应多个文件类型,也可作为新数据的“安全港湾”,因此保持最新状态也更轻松。
数据湖所具备的这种灵活性,允许拥有不同技能、处于不同区域和使用不同语言的用户都能够完成需要执行的各类任务。与数据仓库和孤岛形成鲜明对比的数据湖实际上已将其取代,数据湖向大数据和机器学习应用提供的灵活性愈发显而易见。
数据湖的优势
客户可享受的数据湖优势包括:
- 动态基准 - 可针对其站点的网络性能调整,无需手动设置 SLE。
- 对比 - 以自己的数据为基础,重点显示类似站点出现问题的位置。
- 优化提示 - 以类似客户站点行为的性能数据为基础。
- 重新训练 AI/ML - 随着新技术、基础设施和端点的出现而不断训练。
数据湖与数据仓库的比较
尽管数据湖和数据仓库都可用于存储大量数据,但数据的访问或使用方式还存在着多处关键区别。数据湖存储的是几乎所有类型文件的原始数据。另一方面,数据仓库存储的数据已针对特定目的而经过结构化处理和筛选。
数据湖采用开放格式,不对特定文件类型作要求,用户也不必受专有供应商的束缚。与更加结构化的环境相比,数据湖优于数据孤岛或仓库的一点是,其能够存储任何类型的数据或文件。另一个优点是,设置数据湖时不必明确其意图,而数据仓库的作用在创建之时就已明确,是为特定目的而处理的筛选后数据的存储库。
集中式数据湖比孤岛和仓库更具优势,因为其能够消除数据重复、冗余安全策略以及多用户协作困难等问题。对于下游用户,数据湖看似成为查找或插入多来源数据的唯一板块。
相比之下,数据湖的可扩展性以及利用对象存储的能力,让其相当耐用、实惠。由于利用非结构化数据进行的高级分析和机器学习日渐成为当前许多企业的优先要务,能够“引入”结构化、半结构化和非结构化格式原始数据的数据湖成为日益受欢迎的数据存储选择。
什么是数据湖平台?
基本上所有主要云服务提供商都提供现代数据湖解决方案。内部部署数据中心继续将 Hadoop File System (HDFS) 用作近标准。越来越多的企业采用云环境,然而,也有无数选项可供数据科学家、工程师和 IT 专业人员挑选,这些人想要利用的是将其数据存储移至基于云的数据湖环境后增加的可能性。
使用 JSON 等流数据时,数据湖尤其实用。最常见的三大商业用例是商务分析或智能、聚焦机器学习的数据科学,以及依靠实时数据的数据服务高性能应用。
从 Amazon Web Services (AWS) 到 Microsoft Azure 再到 Google BigQuery 的所有主要云服务提供商,都提供基于云的数据湖所必需的存储和服务。不论组织需要的是哪一个等级的集成,从简单的备份到全面集成,都有诸多选项可选。
目前数据湖可应用在哪些领域?
与二三十年前相比,大多数业务决策都不再依赖存储在数据仓库中的交易数据。从结构化数据仓库到流动的现代数据湖结构的巨变,是为了响应不断变化的需求,以及现代大数据和数据科学应用具备的能力。
尽管新应用几乎每天都层出不穷,但现代数据湖较常见的几款应用关注的是对新数据的获取和分析。例如,数据湖能够将 CRM 平台的客户数据与社交媒体分析相结合,或与可集成客户购买历史的市场营销平台相结合。将这些内容结合之后,企业能够更好地了解潜在的盈利空间或客户流失的原因。
同样地,数据湖可让研发团队检验假设及评估结果。随着实时收集数据方式的不断增加,数据湖便可造就更快、更直观、更方便工程师访问的存储或分析方式。
HPE 与数据湖
当前企业应用大数据来应对所面临的最大挑战。尽管 Hadoop 一直都能从非结构化数据萃取价值,各组织仍在寻找更新、更好的方式来简化这个过程。
当前的企业投向分析的支出相当庞大,这些支出用于系统、数据科学家、旗下 IT 员工,以及实施、运营及维护其基于 Hadoop 的内部部署数据管理。类似于与任何数据环境,容量需求的变化日新月异。
HPE GreenLake 为企业提供真正基于云的解决方案,这种解决方案具备出色的可扩展性,可从根本上简化 Hadoop 体验,消除复杂性和成本,使企业能够专心从数据中获取洞见。HPE GreenLake 提供一应俱全的端到端解决方案,包含硬件、软件和 HPE 服务。
为了充分发挥数据的潜能,HPE GreenLake 不仅充分利用已包含在内部部署环境中的 HDFS 数据湖,同时还会利用云环境所提供的优势和洞见。