您的 ML/DL 环境是否需要针对大规模模型训练的总包式解决方案? HPE 机器学习开发系统是经过验证和预配置的标准化解决方案,能够降低 IT 复杂性,提供开箱即用的性能,让您将时间和资源集中在模型训练上。此解决方案包含分布式 ML/DL 模型训练平台(HPE 机器学习开发环境软件),并与 HPE 硬件基础设施 (HPE Apollo 6500 Gen10 Plus) 集成,能够实现可配置的标准化 AI 群集,提高大规模模型训练的速度与准确度。这些系统专为百万兆次级计算而打造,能够支持多达八个性能强劲的 NVIDIA® A100 Tensor Core GPU,并且配有读写迅速的本地固态硬盘 (SSD),可建立起分布式文件系统。HPE 机器学习开发系统通过 Mellanox® InfiniBand HDR I 交换机进行连接,能够建立高速低延迟 InfiniBand 网络,非常适合分布式 ML/DL 训练。
新特性
- 大规模机器学习 (ML) 模型训练的总包式解决方案,有助于控制 GPU 成本。
- 开箱即用的性能可提升大规模训练模型的速度和准确度。
- 通过单一门户界面来监控并加强 ML 团队协作。
- 集成的硬件、软件和服务可立即投入生产并根据需要扩大规模。
- 灵活的 AI 基础设施适合各种各样的加速器。
- 解决方案支持可提供额外的咨询和专家服务。
功能
提供大规模 ML 模型训练解决方案
HPE 机器学习开发系统完整齐备,具有预配置的硬件、软件、网络、GPU 和服务,您可以专注发挥所长,全力开发和训练模型,而不必受 AI 基础设施管理工作所扰。此系统可以协助您解决客户的业务问题。
这套完整的系统在部署当天即可投入运行,有助于降低 ML 模型训练的复杂性和相关成本。
HPE 机器学习开发系统可协助您充分发挥技能来开发和训练模型,为技艺精湛的工作人员免去 IT 和基础设施管理之劳。
通过快速响应用户,您可以为用户交付所需的计算/技术基础设施,助力用户成功完成机器学习模型训练。
在支持 AI 基础设施的 AI/ML 系统方面,HPE 拥有丰富的开发和交付经验,能够提供统一的解决方案支持模型,是值得您放心信赖合作伙伴。
高效管理 AI 基础设施
HPE 机器学习开发系统采用单一管理平台来监控 AI 基础设施和模型指标。
借助 HPE 机器学习开发系统,您可以使用加速器和灵活的存储选项来构建异构的基础,满足现在和未来的 AI 环境需求。
提高 AI 基础设施的利用率和模型报告的效率,同时加强 ML 团队之间的协作。
- Linux 是 Linus Torvalds 在美国和其他国家(地区)的注册商标。NVIDIA 是 NVIDIA Corporation 在美国和其他国家(地区)的商标和/或注册商标。Red Hat 是 Red Hat, Inc. 在美国和其他国家(地区)的注册商标。其他第三方商标的所有权均属于各自的所有者。
相关链接
QuickSpecs
HPE 服务