阅读时长:6 分钟 | 发布时间:3 月 10 日

AI 堆栈
什么是 AI 堆栈?

AI 堆栈指共同构建、训练、部署和管理 AI 应用的工具、技术和框架的集合。它涵盖从数据处理和机器学习框架到云服务和硬件基础设施的所有方面,使开发人员和组织能够有效地创建和扩展 AI 解决方案。

AI 堆栈内产品示例:

TensorFlow – 开源机器学习框架,开发人员可使用它构建和训练深度学习模型。

AWS Sagemaker – 由 Amazon Web Services 提供的云服务,可简化大规模构建、训练和部署机器学习模型的流程。

元阳梯田上色彩斑斓的夕阳倒影。
  • AI 堆栈概述
  • 基础设施层
  • 数据管理层
  • 推理和部署层
  • 应用层
  • 携手 HPE
AI 堆栈概述

AI 堆栈包含什么?

以下是对 AI 堆栈中不同层的高度细分:

  • 数据收集和准备:这是 AI 堆栈的基础。它涉及从各种来源收集原始数据并进行清理、组织和准备,以用于 AI 模型。此层的工具和平台用于帮助自动化数据管道并确保数据质量。
  • 数据存储和管理:此层解决海量数据集的存储、组织和可访问性问题。用于此层的解决方案通常包括数据库、数据湖和云存储服务,以实现高效的数据检索和管理。
  • 模型开发和训练:在此层,开发人员使用机器学习框架和库来创建和训练 AI 模型。数据科学家可以利用此类别中的工具(例如 TensorFlow 和 PyTorch),使用结构化和非结构化数据来试验、训练和微调他们的模型。
  • 模型部署和服务:此层涉及采用训练完备的模型并将其部署到生产中,以便它们可以用于实时应用。此层的平台和服务专注于扩展、监控和管理模型的性能,例如 AWS Sagemaker 或基于 Kubernetes 的解决方案。
  • 基础设施和计算:这是驱动 AI 堆栈的支柱。它包括各种硬件(例如 GPU、TPU)和云服务,它们提供训练复杂模型以及大规模运行 AI 应用所需的计算能力。
  • 监控和优化:此层将确保投入生产的模型能够高效且一致地运行。监控工具会跟踪指标、检测异常并确定何时需要重新训练模型。优化解决方案还会调整资源并微调模型以获得最佳性能。
  • 用户界面和集成:这是最后一层,AI 系统与用户和其他业务系统在此层连接。其中包括 API、仪表板和软件工具,目的是使 AI 输出可用于决策和运营。

AI 堆栈的每一层在构建强大且可扩展的 AI 生态系统中都发挥着至关重要的作用,使企业在从数据收集到最终用户集成的过程中有效地利用 AI。我们将进一步详细介绍每个步骤的具体作用。

基础设施层

AI 堆栈需要什么样的基础设施?

要在内部基础设施层上高效运行 AI 模型,企业需要遵循几个关键步骤:

内部 AI 基础设施设置:

  • 硬件采购:企业需要投资于高性能服务器和处理单元,如 Proliant 服务器或 Cray 产品,它们可以提供强大的计算能力。GPU(图形处理单元)或 TPU(张量处理单元)对于加速复杂 AI 模型的训练和部署也至关重要。
  • 存储解决方案:大规模数据存储对于处理训练 AI 模型所需的海量数据至关重要,此解决方案包括建立数据湖或大容量且可快速访问的存储系统。
  • 网络功能:需要强大的高速网络基础设施来确保存储和计算单元之间的无缝数据传输,这有助于保持 AI 流程的效率和速度。
  • 电力和冷却系统:高性能硬件需要大量电力并会产生热量,因此企业需要可靠的电源和先进的冷却系统来防止过热并确保性能稳定。
  • IT 专业知识和管理:专业的 IT 团队对于设置、管理和维护基础设施、处理故障排除、优化性能以及实施安全措施至关重要。
  • 安全协议:保护敏感数据以及确保运营始终安全非常重要。企业应实施全面的网络安全措施,如防火墙、加密和访问控制策略。

内部基础设施的替代方案:

用于构建和维护内部基础设施的资金或资源不足的企业,可使用以下替代解决方案:

  • 云计算:
    • 云 AI 服务:Amazon Web Services (AWS)、Microsoft Azure 和 Google Cloud Platform (GCP) 等提供商提供了可扩展的按需计算资源。企业可以利用这些服务,租用处理能力、存储和 AI 工具,这样就无需前期基础设施投资。
    • 优点:可扩展、初始成本较低、易于设置且可以访问高级 AI 服务。
    • 注意事项:经常性运营费用、依赖于互联网连接以及数据隐私问题。
  • 租用数据中心空间
    • 托管服务:企业可以租用数据中心空间来托管自己的服务器和存储系统,这样无需构建和维护物理设施即可管理其 AI 基础设施。
    • 优点:可以使用数据中心提供的电力、冷却能力、安全性和可靠的网络连接。
    • 注意事项:需要在硬件和 IT 专业知识方面进行初期投资以管理服务器,并支付持续的租赁和维护费用。

每种方法各有其优缺点,企业在内部基础设施、云计算或数据中心租赁解决方案之间进行选择时,应该评估自己的预算、数据隐私要求和可扩展性需求。

数据管理层

AI 堆栈需要什么数据管理?

为了熟练运用 AI 堆栈的数据管理层,企业需要集中精力构建用于收集、组织、存储和处理数据的强大系统。它可确保 AI 模型能够获得高质量的数据以用于训练和推理。

内部数据管理设置:

  • 集中式数据存储:企业需要能够高效处理大量数据的系统。可以实施 HPE Ezmeral Data Fabric 等解决方案,实现无缝的数据存储、访问和管理。此平台提供可扩展的数据存储,并确保数据可用于 AI 模型训练和分析且可靠。
  • 数据集成和管道:建立可以从各种来源(例如数据库、物联网设备、云存储)提取数据的数据管道至关重要,这确保了数据在基础设施中顺利处理和移动。HPE Ezmeral Data Fabric 支持数据集成功能,允许跨混合环境进行统一的数据访问。
  • 数据处理工具:这些工具可清理、规范化和格式化数据,帮助准备适用于 AI 模型的数据。例如,Apache Spark 和 Hadoop 是流行的开源数据处理框架,可实现大型数据集的分布式处理。
  • 数据安全与合规性:随着法规的不断增加,企业需要确保其数据管理系统符合各种数据隐私法规(例如 GDPR、CCPA),应整合数据加密和访问控制等安全措来保护敏感信息。
  • 可扩展性和性能:数据层应该能够随着数据需求的增长而扩展。HPE 的数据解决方案设计用于根据业务需求进行扩展,但 Databricks(基于 Apache Spark 构建)等替代技术也提供了可扩展的数据处理和机器学习功能。

数据管理层的替代方案:

对于无法或不愿在内部进行数据管理的企业,可以使用基于云的第三方解决方案:

  • 云数据管理服务:
    • 亚马逊 S3 AWS Glue:这些服务提供可扩展的云存储和数据集成工具,确保高效地收集、准备和管理数据。
    • Microsoft Azure 数据湖存储:提供安全且可扩展的数据湖解决方案,具有高可用性,并可与其他 Azure 服务集成以进行数据处理和分析。
    • Google Cloud BigQuery:一种完全托管的数据仓库,支持实时数据分析,并与各种 Google Cloud AI 工具良好集成。
  • 第三方数据管理平台:
    • Snowflake:一种数据仓库解决方案,提供实时数据共享和扩展功能,是跨组织管理大数据的有力工具。
    • Cloudera 数据平台:一种混合和多云数据平台,重点关注大数据解决方案,提供数据工程、数据仓库和机器学习服务。

混合解决方案

HPE Ezmeral Data Fabric 可以与云解决方案结合使用,形成混合方法,为企业提供了灵活性,可以在内部管理某些数据,同时根据需要利用云资源。这有助于优化大型 AI 项目的成本和性能。

IT 决策者和高层管理人员需注意的要点:

  • 数据可靠性:确保数据管理解决方案提供高可靠性和可用性,以支持持续 AI 运维。
  • 成本管理:评估内部数据管理与基于云的数据管理的长期成本,包括存储、处理和合规性这几方面。
  • 集成能力:选择可与现有 IT 基础设施和 AI 工具轻松集成的解决方案,以最大限度提高生产力和效率。

企业可以通过使用 HPE Ezmeral Data Fabric 等类似解决方案并探索 Snowflake 或 Databricks 等补充或替代产品,构建强大、可扩展的数据管理层,满足自己的具体 AI 需求。

推理和部署层

推理和部署层需要什么?

为了熟练运用 AI 堆栈的推理和部署层,企业需要一套高效的配置,以确保能够实时部署 AI 模型并发挥最佳性能。经过训练的模型将在此层集成到应用中并用于做出预测或决策,从而影响最终用户交互和业务流程。

内部推理和部署设置:

  • 高性能服务器:为了有效地运行和部署人工智能模型,企业需要能够满足实时推理的计算需求的强大服务器。HPE ProLiant 服务器和其他 HPE 服务器是理想的解决方案,它们是可靠、可扩展且高性能的硬件。这些服务器已针对 AI 工作负载进行优化,可以完成部署复杂模型所需的繁重工作,同时确保低延迟预测。
  • 可扩展的部署框架:确保能够跨不同环境(例如,本地、云、边缘)部署模型至关重要。HPE 基础设施支持 Kubernetes 和 Docker 等容器化和编排工具,可无缝扩展并管理模型部署。
  • 负载平衡和高可用性:负载平衡可确保 AI 应用在多台服务器之间分配推理请求,从而保持服务可靠性。HPE ProLiant 服务器支持的高可用性配置有助于防止服务停顿,确保 AI 应用平稳运行。
  • 监控和绩效管理:持续监控已部署模型对于保持推理的准确性和效率至关重要。HPE 服务器配备有内置管理工具,这些工具可跟踪性能指标、检测异常并帮助优化资源利用率。此外,还可以集成 Prometheus 和 Grafana 等 AI 专用监控工具,实现全面监督。
  • 安全性与合规性:部署层必须具有强大的安全协议来保护数据和模型的完整性。HPE 服务器提供企业级安全功能,包括加密数据传输和基于角色的访问控制,确保已部署的 AI 模型符合相关行业标准和法规。

推理和部署层的替代方案:

对于喜欢使用基于云或外包解决方案执行模型推理和部署的企业,有以下几种选择:

  • 基于云的推理解决方案:
    • AWS Sagemaker Inference:提供可扩展的基础设施,用于部署具有低延迟端点的模型,使企业能够利用预构建的服务和工具进行无缝集成。
    • Google Cloud AI Platform Prediction:提供用于部署训练模型的无服务器选项,使其能够更轻松地根据需求扩大或缩小规模,同时确保高性能。
    • Azure 机器学习托管端点:使用内置的扩展、监控和治理功能,快速、安全地部署模型。
  • 托管推理平台
    • NVIDIA Triton Inference Server:一种开源解决方案,可简化 AI 模型的部署,优化 GPU 和 CPU 性能。它支持多种模型和框架,提高了部署策略的灵活性。
    • MLflow:一个管理端到端机器学习生命周期的平台,包括模型部署、版本控制和跟踪功能。它可以与 HPE 服务器集成以简化运营。
  • 边缘部署解决方案:
    • HPE Edgeline 边缘融合系统:对于希望在边缘部署 AI 模型的企业,HPE Edgeline 系统可在边缘提供强大的计算能力,减少延迟并缩短 IoT 和自主系统等实时应用的响应时间。
    • TensorFlow Lite:针对在移动和边缘设备上部署 AI 模型进行了优化,可直接在设备上实现 AI 功能,进而加快推理速度并减少对集中式基础设施的依赖。

对 IT 决策者和高层管理人员而言的要点:

  • 延迟和性能:需确保推理设置可以满足实时处理需求。HPE ProLiant 服务器能够满足高性能要求。
  • 可扩展性:仔细考虑您组织当前的基础设施是否可以通过扩展来应对不断增长的推理需求,还是说基于云的解决方案更有利于满足未来增长的需求。
  • 安全:验证部署环境是否满足必要的数据保护和合规性标准。
  • 边缘功能:对于需要快速响应和低延迟的用例,评估使用 HPE Edgeline 或类似系统在边缘部署模型是否与您的策略相符。

通过使用 HPE ProLiant 服务器或其他 HPE 服务器,企业可以构建强大、安全且可扩展的推理和部署环境,支持从简单模型托管到高级分布式部署的各种 AI 应用。

应用层

应用层需要什么?

为了熟练运用 AI 堆栈的应用层,企业需要能够将 AI 功能无缝集成到其产品和服务中的解决方案。这一层代表人工智能面向用户的一面,将模型的输出转变为切实可行的洞见、用户交互或为最终用户提供价值的自动化流程。

内部应用层设置:

  • 定制 AI 解决方案和开发:在应用层开发可充分利用 AI 模型功能的定制应用。HPE 的 Gen AI 实施服务为企业提供了专业知识和资源,用于将生成式 AI 模型和其他高级 AI 功能集成到其应用中。这些服务有助于根据特定的业务需求定制 AI 实施,确保解决方案不仅功能强大,而且符合业务目标。
  • 用户界面 (UI) 和用户体验 (UX):为了使 AI 应用发挥效用,它们需要直观的界面,以便最终用户能够轻松地与 AI 输出进行交互。开发团队可以构建仪表板、Web 应用或移动应用,以可操作的格式显示 AI 洞见。HPE 的 AI 服务包括咨询和支持,旨在使设计出的界面可促进用户交互并最大限度提高 AI 驱动型洞见的有效性。
  • 用于集成的 API:企业经常使用 API 将 AI 功能集成到现有系统和工作流程中。HPE 的 AI 服务可以帮助创建用于无缝集成的自定义 API,从而使 AI 模型能够与其他企业软件或数据平台相互通信。
  • AI 驱动型自动化:自动化业务流程是应用层的一个关键用途。HPE 的 AI 解决方案可构建能够自动执行重复任务、优化运营以及改善决策流程的应用,涵盖从客服聊天机器人到自动欺诈检测系统的所有内容。
  • 定制和个性化:这一层的 AI 应用通常注重个性化用户体验,例如提供定制建议、动态内容和自适应用户界面。企业可以利用 HPE Gen AI 实施服务来构建和部署实现个性化 AI 驱动型交互的应用。
  • 应用层的替代方案:

对于寻求第三方解决方案或其他工具来增强 AI 能力的企业而言,以下选项值得考虑:

AI 驱动型 SaaS 平台:

  • Salesforce Einstein:将 AI 功能集成到客户关系管理 (CRM) 工具中,以提供预测性分析、客户洞见和自动化工作流程。
  • IBM Watson AI 服务:提供一系列 AI 功能,从自然语言处理 (NLP) 到机器学习,可集成到企业应用中以增强用户体验并简化运营。

AI 应用框架:

  • Microsoft Azure 认知服务:提供一套 API 和工具,允许企业将计算机视觉、语音识别和语言理解等 AI 功能嵌入其应用中。
  • 谷歌云 AI:提供预先训练的模型和工具(如 Dialogflow)用于构建对话式 AI 界面,以及用于视觉、翻译和数据分析的 API。

无代码和低代码 AI 平台:

  • DataRobot:使组织无需大量编码即可构建和部署 AI 应用,企业用户因此能够更容易访问 AI 并缩短产品上市时间。
  • H2O.ai:该平台支持以最少的编码快速开发和部署 AI 应用,非常适合希望以简单直接的方式集成 AI 的企业。

对 IT 决策者和高层管理人员而言的要点:

  • 上市时间:HPE 的 Gen AI 实施服务可以加快采用 AI 技术的应用的开发和部署,确保企业更快获得竞争优势。
  • 可扩展性和定制:确保所选的 AI 解决方案能够随着业务需求的发展而灵活扩展和适应。
  • 集成能力:评估 AI 解决方案是否能与现有企业系统顺利集成,形成协调一致的技术堆栈。
  • 以用户为中心的设计:优先考虑那些有助于在设计 AI 应用时考虑用户体验的工具和服务,以提高采用率和有效性。

通过利用 HPE 的 Gen AI 实施服务和其他 HPE AI 解决方案,企业可以创建出强大的应用,充分利用其 AI 模型的强大功能。这些服务将指导公司完成开发、推出和维护 AI 应用的整个过程,获得能够带来改变的成果并推动战略目标。

携手 HPE

携手 HPE

携手 HPE 为您的企业构建 AI 堆栈。我们提供多种产品和服务来助您打造 AI 优势并实现宏伟目标。

HPE AI 解决方案:当今世界,AI 无处不在,它在颠覆各行各业的同时,也带来了无限商机。AI 可将问题转化为探索,将洞见转化为行动,将想象转化为现实。

您是否已做好准备,满怀信心地推进并扩展 AI 项目? 借助 HPE 的 AI 解决方案,加快向 AI 驱动型企业转型,并为轻松应对复杂问题和海量数据集做好准备。

HPE Private Cloud AI:利用端到端生命周期软件平台,简化加速基础设施配置并提供公有云的速度和规模,同时确保数据私密性并提高安全性。您可以借助经过预测试、可扩展、已 AI 优化的全面加速私有云,让自己的 AI 和 IT 团队随心所欲地利用丰富的 AI 模型和开发工具生态系统试验和扩展 AI 项目,同时牢牢掌控成本和财务风险。

HPE Cray Supercomputing利用 HPE 一应俱全的解决方案组合,提高效率并以超级计算速度加速 HPC 和 AI/ML 工作负载。

相关主题

人工智能

ML Ops

企业 AI