数据管道
什么是数据管道?
数据管道可用于将数据从来源移到目的地,例如,数据湖或数据仓库。
哪些是数据管道的组件?
数据管道由三个步骤构成:数据源、数据处理或数据转化步骤,以及数据目的地或数据存储位置。数据源就是数据的来源位置。常见数据源包括数据库、CRM 系统、IoT 传感器等。数据处理或数据转化步骤囊括数据更改的所有操作,包括传输、转换、排序、整合、重复数据删除、验证和分析。数据管道的最后一个步骤是数据存储,即,存储经过转化的数据以供用户访问。常见的数据存储位置包括数据仓库、数据湖和数据市场。
人们将 ETL 管道视为数据管道的子类别。ETL 管道与数据管道的主要区别是 ETL 管道转化数据的方式比数据管道的多。例如,ETL 管道可以结合特定指标数据,让数据分析更简单。ETL 管道也可按固定时间表传输数据,例如,网络流量较慢时不实时传输,而是允许数据定期(而不是持续)传输。
数据管道有哪些类型?
实时管道
实时管道通常用于需要财务洞见的行业或企业,后者通常需要通过分析和天气报告等流媒体服务直接处理数据。这个系统所依托的架构具备大规模处理数百万个活动的能力,能够即刻处理数据,得出十分可靠的洞见。
开源管道
开源管道是较小型企业和公众使用的一款实惠系统,能够供其移动、处理和储存数据。与辅助实时或基于云之数据管道系统的工具相比,辅助此类管道的工具更实惠。这些系统向公众开放,不论是任何用例,都需要进行特意定制。
云管道
云管道恰如其名,能够利用、转化和分析基于云的数据。消除对现场存储基础设施的需求后,组织能够在基于云的结构中兼顾数据的收集和分析。由其服务性质而定,云原生管道通常包括范围十分宽泛的安全性产品/服务。
批处理管道
批处理管道是一款十分热门的数据管道存储系统。批处理管道系统通常用于持续地移动和存储大量数据。组织能够借此系统转换和移动其数据,在面对庞大的数据量时,能够以低于实时系统的速率储存和分析数据。
流式处理管道
流式处理管道和批次处理管道是最常见的两种数据管道形式。流式处理管道让用户能够从多种不同数据源提取结构化数据和非结构化数据。
数据管道架构是什么?
数据管道架构指的是能够连接数据源、数据处理系统、分析工具和应用的系统。
数据管道架构用以确保收集到所有相关数据,方便数据科学家以目标行为为导向从数据中得出洞见、提高客户旅程效率、强化客户体验。数据管道接收原始数据后按特定线路将其传送到恰当的存储站点,再将其转化为切实可行的洞见。这款动态分层架构贯穿数据接收到持续监管的始终。
原始数据基本上牵涉一系列数据点,而数量过多会导致无法获得洞见。数据管道的架构牵涉的是为捕捉、组织和移动数据而创建的系统,为的是从该系统提取洞见并予以分析,从而深化理解、提高利用率。这个过程的完成通常需要借助自动化、软件和数据存储解决方案。
存储位置视所收集之数据的格式而定。将数据发送到正确的存储位置是数据管道架构中的关键一环。可以选择将精选数据存储在数据仓库等结构化存储系统内,也可以选择将更为松散的结构化数据存储在数据湖中。数据分析师可从数据湖内松散的结构化数据中收集数据洞见,也可以在中央存储位置内分析精选数据。若未能将数据恰当存放到存储环境中,就无法在架构内实现切实监管,导致未来应用进一步受限。
HPE 和数据管道
HPE Ezmeral 是经过专门设计的混合分析和数据科学平台,能够推动数据优先更新改造,让企业能够释放任意位置数据的价值。HPE Ezmeral 为 HPE GreenLake 分析服务提供技术支持,让后者能够协助客户统一、更新改造及分析边缘到云的所有数据。
HPE Ezmeral 有助于释放数据的价值、加速创新,提供特定解决方案和基于云的解决方案所无法提供的选择、效率和灵活性。其所依托的是:
提供基于 100% 开源打造的统一软件平台,适合在本地基础设施、混合和多云环境中运行的云原生和非云原生(旧式)应用。
利用针对高性能分析而优化的行业首款集成式数据架构统一数据和更新改造应用。其能够将文件、对象、事件流和 NoSQL 数据库整合到单一逻辑基础设施和文件系统,以提供对已同步数据的全局访问。
借助可提供 DevOps 般速度和敏捷性的解决方案来应对运行企业级规模 ML 模型时的挑战,与此同时,还能够提供可加速工作负载的类云体验。
利用以一系列分析和 ML 工具为依托的单一平台,在所有团队当中提供一致的体验 内置自动化和云原生体验能够简化将用户及其工具连接到恰当数据、计算引擎和存储的流程,让团队得以集中精力释放数据的价值。
将开源工具和框架集成到统一混合湖仓一体,兼得自由度与灵活性。集成式应用商店或 HPE Ezmeral Marketplace 让企业可以基于经过可信独立软件提供商合作伙伴验证的全栈解决方案,快速打造精简的定制化引擎和环境。