Hadoop
什么是 Apache Hadoop?
Apache Hadoop 提供开源框架,可跨计算资源群集对大型数据集进行分布式处理。其设计可从单个服务器扩展到数千个服务器,且每一个服务器都能够提供本地计算和存储功能。
Hadoop 为何如此有用?
业务运营各个环节中大数据和数据收集设备爆炸式增加,为各公司提供了创新和成功的巨大机遇。由于 Hadoop 能够在应用层(而不是硬件层)检测及处理故障,因此 Hadoop 能够在计算机群集的基础上交付高可用性,即便个别服务器可能容易出现故障。
Hadoop 有哪些优势?
Hadoop 具有五大显著优势,使其尤其适用于大数据项目。Hadoop:
1. 可扩展
由于 Hadoop 能够跨数百个可并行运行的实惠服务器,存储和分布大型数据集,因此其具有高度可扩展性。与传统关系数据库系统 (RDBMSes) 不同,Hadoop 能够扩大规模以在包含数千 TB 数据的数千个节点上运行应用。
2. 灵活
Hadoop 能够利用结构化和非结构化数据来产生价值。各企业能够从多个数据来源获取业务洞见,例如社交媒体渠道、网站数据以及电子邮件对话。此外,Hadoop 的用途多样,可用于推荐系统、日志处理和数据仓库,以及市场营销活动分析和欺诈检测。
3. 高性价比
传统 RBDMS 成本极高,无法扩展到足够规模来处理大数据。此前,由于保留所有内容的成本过高,使用此类系统的公司不得不删除大量原始数据。相反,Hadoop 的横向扩展架构能让公司以更加实惠的方式存储所有数据,供日后使用。
4. 快速
Hadoop 会使用基于分布式文件系统的独特存储方法,映射群集上的任意数据。此外,其用于数据处理的工具通常与数据处在同一个服务器上,因此可实现更快速的数据处理。这些功能让 Hadoop 能够高效处理 TB 级别(几分钟)和 PB 级别(几小时)的非结构化数据。
5. 容错
存储在 Hadoop 群集任一节点上的数据可在群集的其他节点上复制,为可能发生的硬件或软件故障做好准备。这个冗余设计是为确保容错而特意为之的。如果一个节点不可用,群集中始终有一个可用数据备份。
Hadoop 能够安全地处理大型数据集,且与关系数据库管理系统相比,能够更轻松地实现成本效益。此外,其为企业创造的价值会随着组织所处理之非结构化数据量的增加而增加。Hadoop 非常适用于搜索功能、日志处理数据仓库,以及视频和图像分析。
Hadoop 如何运作?
HDFS
Hadoop 分布式文件系统 (HDFS) 能够以多种格式存储海量数据,也允许数据跨 Hadoop 群集分布。其提供对应用数据的高吞吐量访问,适用于拥有大型数据集的应用。与部分其他分布式系统不同的是,HDFS 具有高度容错功能,设计时使用的是低成本硬件,且可在商用硬件上运行。
MapReduce
MapReduce 模块既是编程模型,又是大数据处理引擎,可用于并行处理大型数据集。借助 MapReduce,处理逻辑会发送到各种从属节点,之后跨不同节点并行处理数据。经过处理的结果之后会发送到主节点并在此处进行合并,响应会传回客户端。一开始,MapReduce 是 Hadoop 中唯一可用的执行引擎,但之后 Hadoop 增加了对其他引擎的支持,例如 Apache Tez 和 Apache Spark。
YARN
Hadoop 的 Yet Another Resource Negotiator (YARN) 是 Hadoop 框架中的另一个核心组件。其可用于群集资源管理、规划任务以及安排在 Hadoop 上运行的作业。其还能够并行处理跨 HDFS 存储的数据。YARN 促进了 Hadoop 系统高效利用可用资源,对于大量数据处理来说,这一点至关重要。
Hadoop 应用在哪些领域?
众多行业的公司将 Hadoop 用于大数据分析,进而为所在组织提供诸多优势。
金融服务公司
金融组织利用 Hadoop 来制定关键投资决策并降低风险。金融和银行业公司使用大数据分析来更加准确地批准及拒绝贷款以及信用卡申请者。 这类分析也可基于过往的购买行为,识别异常、可疑的帐户活动。保险公司也使用 Hadoop 来协助检测及防止欺诈性索赔。医疗保险公司会使用大数据来制定专为特定患者人口统计信息而量身定制的策略。Hadoop 也可用于从与客户的在线聊天对话中获取洞见,从而提高服务交付的质量并打造更加个性化的客户体验。
电信
电信提供商经常会以极快速度产生大量数据,需要保留的通话记录达到数十亿份。大数据可用于为数百万个客户生成准确的计费详情,预估未来带宽需求以及客户的通信趋势。此外,这类信息还用于未来基础设施规划,以及打造面向客户的新产品和服务。
医疗保健
医疗保健行业可从患者病历、研究和试验数据、电子医疗设备等来源获得大量可用数据。Hadoop 能为几十亿份医疗记录提供不受限制的并行数据处理、容错功能以及存储。这个平台也可用于分析医疗数据,分析结果则可用于为几十亿人口评估公共健康趋势,并根据每个病人的需求打造个性化治疗选项。
零售业
需要先进的处理才可以应对零售商当前产生的海量数据。历史交易数据可加载到 Hadoop 群集中,以构建可预测需求和库存、打造针对性促销活动以及预计消费者喜好的分析应用。
适用于 Hadoop 的 HPE 解决方案
HPE Elastic Platform for Big Data Analytics (EPA) 的设计定位是作为模块化基础设施的基础,用以满足可扩展多租户平台的需求。其能够通过已针对密度和工作负载优化的基础设施构建块,实现计算和存储的独立扩展来满足需求。两种不同的部署模式可供使用:
- HPE 平衡与密度优化 (BDO) 系统:支持能够一起扩展计算和存储的常规 Hadoop 部署,同时提供灵活的内存、处理器和存储容量选择。
- HPE 工作负载和密度优化 (WDO) 系统:利用更高速以太网网络的力量,支持构建块方法来独立扩展计算和存储,可让您整合以不同速率增加的数据和工作负载。
HPE 提供了一款可扩展解决方案,从根本上简化 Hadoop 的使用体验。它可为您大大降低 Hadoop 环境的复杂性和成本,使您能够完全集中精力从 Hadoop 群集中获取情报。通过为对称环境和非对称环境提供支持,HPE GreenLake 提供了涵盖硬件、软件和服务的全面大数据端到端解决方案。HPE 专家将为您设置并运维整体环境,帮助您管理和维护群集。此外,其还可简化计费,使其与业务 KPI 保持一致。借助 HPE 独特的定价和计费方法,您可以更轻松地了解现有 Hadoop 成本,更好地预测与解决方案相关的未来成本。