阅读时长:7 分 5 秒 | 发布日期:2025 年 10 月 16 日
AIOps 什么是 AIOps?
AIOps(IT 运维人工智能)是指使用机器学习 (ML)、生成式 AI (GenAI) 以及代理式 AI 人工智能技术来自动识别和解决常见的 IT 问题或提高运维效率。
在网络领域,AIOps 可自动执行人工密集型任务,从而简化和优化复杂的有线、无线、园区、分支机构、广域网、数据中心和云网络运维。它利用高质量数据、智能分析和情景化理解来优化网络运维,并在获得授权后自主进行修复。这使得运营团队能够聚焦于可创造更大价值的战略举措。
代理式 AI 正重塑 AIOps,推动网络向自主运行方向快速转型。它还可以通过预测性分析和切实可行的洞见,支持更智能、更具可扩展性的网络运维,从而提升用户体验。例如,通过 AIOps 分析结果发现不合规的无线接入点或交换机,在获得授权的前提下,无需人工干预即可启动软件升级。
为什么 AIOps 很重要?
AIOps 会检测影响性能、安全性或用户体验的问题,并提供建议或自动修复方案。它可自动执行复杂的工作流程,提高效率并最大限度地减少人为造成的延误。
AIOps 通过预测性分析、异常检测和事件相关性为 IT 团队提供助力。借助这些功能,运营商可以主动识别并解决问题,避免影响用户体验、应用性能或系统可用性,从而利用先进的智能和自动化技术提供无缝体验。
除了能以自动化方式执行复杂工作流程、减少人工操作,它的核心优势更在于可跨园区网络、云基础设施等各类环境灵活扩展,轻松适配业务需求的动态变化。这种适应能力再加上实时情报,便能够提高整个组织效率。
AIOps 如何发挥作用?
AIOps 的工作原理是摄取和整合来自各种来源(应用、日志、事件、警报、模式等)的数十亿个数据点。然后,通过机器学习或深度学习 (DL) 算法和智能 AI 编排来处理这些数据,以提供体验质量 (QoE)、根本原因分析和异常检测等实时洞见。
AIOps 会持续扫描可能表明出现问题或性能偏差的模式、关联性和异常情况。同时,运用聚类、分类和预测性分析等技术,自动对相关事件进行分组,过滤噪声并识别根本原因。
AIOps 平台通常利用自然语言处理 (NLP) 来解释非结构化数据(如事故工单或聊天消息),并使用自动化引擎来触发修复工作流程或提醒 IT 团队。
良好的 AIOps 能够减少误报,消除告警疲劳,使操作员能够主动检测问题,避免影响最终用户体验。
AIOps 如何在企业网络环境中提供洞见?
AIOps 利用从各个网络、客户端设备和应用收集的遥测数据建立基线,以便自动发现问题、确定根本原因并实时提供优化指导。
AIOps 包括采用以下 AI 技术:
- 分类 AI(包括机器学习):具备学习环境变化并随之自适应的算法能力。它们能够更改或创建新算法,以便提早发现问题并提出有效的解决方案。
- 生成式 AI (GenAI):这种 AI 通常能够根据提示使用生成式模型生成文本、图像、视频或其他数据。包括大型语言模型 (LLM) 在内的生成式 AI 模型学习输入训练数据的模式和结构,然后生成具有类似特征的新数据。OpenAI ChatGPT 就是使用 LLM 的 GenAI 示例。
- 代理式 AI:代理式 AI 利用智能自主学习代理跨领域进行推理、协作并采取行动。这些代理作为领域专家,将复杂的问题分解成可管理的子任务,然后自主委派并解决这些子任务。
AIOps 有哪些网络用例?
AIOps 可帮助解决 IT 团队现今面临的诸多常见网络运营挑战。具体包括:
- 确保网络配置合规性 - 静态设备设置无法满足不断变化的业务需求。AIOps 持续不断地监控网络运行情况,并提出建议或自动执行优化更改。
- 满足多变业务需求:手动配置服务级别期望 (SLE) 成本高昂且耗时。使用 AIOps,可以根据环境变化自动定义、监控和调整重要的网络阈值。
- 快速解决网络问题:大多数 IT 组织主要通过服务台来电发现问题,这样不但成本高昂,而且效率低下。通过 AIOps 提供的前瞻性洞见可及时发现问题,避免波及用户或 IoT 设备,从而减少服务台来电。
- 复现间歇性问题:许多 IT 团队花费数小时乃至数天时间来跟踪间歇性问题,因为这些问题很难复现。基于 AIOps 的永续运行、自动化监控通过内置数据捕获功能,精准定位持久性问题与显而易见的问题。
- 网络愈发复杂:IT 超过半数的时间都用于故障排除和优化任务。AIOps 通过提供故障原因、根本原因分析和维修建议等关键信息来解决这一挑战。
- 资源和技能欠缺:很多 IT 组织长期以来都面临资源欠缺和培训不足的问题。AIOps 驱动型洞见,比如采用 GenAI 技术的搜索功能,旨在协助及增强团队知识储备。
网络 AIOps 的优势
- 快速排除故障并予以解决:AIOps 可自动执行根本原因分析和事件关联,从而减少手动故障排除操作、缩短平均解决时间。
- 主动检测问题:AIOps 能在异常和潜在问题影响用户之前对其进行识别,使管理员能够主动处理问题,并减少故障工单的数量。
- 优化网络性能:AIOps 通过分析流量模式和配置数据,提供切实可行的建议,从而提高网络利用率、优化带宽,并使 IT 团队能够聚焦于高价值战略举措。
- 减少警报噪音:机器学习会过滤无关的警报和误报,使管理员能够着力于解决真正的问题,从而提高运营效率。
- 自动化修复和增强用户体验:AIOps 可自动执行日常任务和工作流程,最大限度地减少停机时间和中断。这样一来,IT 团队可以在不增加运营成本的情况下,提升服务可用性并满足网络正常运行时间要求。
网络 AIOps
网络 AIOps(或网络 AI)是一种网络方法,集成了安全性、数字体验监控和零信任架构支持,确保网络高效运作且能够抵御不断演变的威胁。
网络需具备广泛连接性、长久的正常运行时间、高速传输与低延迟特性,同时兼顾安全可靠性。借助 GenAI 搜索、代理式网格网络和自主修复等创新技术,各组织可以为智能网络树立新标准。
在网络平台中借助 AI 的强大作用来优化和管理网络,就如同打牌时身边有一支专家团队来出谋划策。充分利用 AIOps 的强大功能,您可无缝运行网络。
缓解人们对 AI 普及的担忧
通过采用 AIOps,企业将获得提升网络运营能力的绝佳机会。采用新技术有助于提高效率、优化决策以及提升服务质量。在贵组织探索 AI 技术应用时,以下几个重要方面值得关注:
- 安全性与道德感:确定 AI 引擎使用哪些数据以及如何保护这些数据。确保供应商遵循 AI 道德原则和准则。
- 集成:有效的 AIOps 解决方案应化繁为简,而不是难上加难。应选择能够与现有基础设施集成,或已内置到 IT 解决方案中的解决方案。
- 功效:从 AIOps 最初集成开始,评估其随时间推移的发展历程。有效的 AIOps 系统应提供准确的实时洞察,并主动提醒操作人员关注高优先级问题,而不会造成警报疲劳。通过闭环反馈和开发循环,可不断提高其性能。
- 实际案例:寻找 AIOps 解决方案为客户带来实际成果的案例。
HPE 与 AIOps
如今,维护网络需要持续的可见性和智能自动化。HPE Networking 提供安全的 AI 原生网络,并借助 AIOps 实现自主运行的愿景;这种网络可帮助 IT 团队优化网络运维并实现自主修复。
HPE Networking with AIOps 可为您提供诸多帮助:
- 无需或仅需少量人工干预,在网络、安全及应用性能问题影响用户与业务前快速识别。
- 借助 Zoom、Teams 等协作式应用数据及非结构化应用数据,预测不良用户体验并定位根本原因,进而缓解自主运行场景下的自主性相关问题,最终实现客户端到云全链路停机时间缩短、服务质量提升与用户满意度增强。
- 省去手动故障排除环节,有效降低成本、加速问题解决并提升 IT 团队生产力,让团队从日常琐事中解脱出来,聚焦战略级举措,进而推动整体生产力提升。
- 针对接入物联网设备、扩展广域网容量、纠正 VXLAN 配置错误等网络变化场景,提供可落地的实用优化建议,以此维持稳定性能、减少配置失误,同时为业务高效扩展提供支撑。
- 打造 AI 驱动型客户侧智能助手搜索界面,即时提供答案查询、配置指导与故障排除技巧,进而加快问题解决效率、缩短支持等待时长,同时通过专家级协助提高自助服务能力。
- 整合全球数千个安装点与网络设备产生的 TB 级数据,结合深厚的网络及安全专业积淀,以及负责数据湖验证的资深数据科学家团队力量,实现故障检测提速、决策智能化升级,同时大幅缩短故障解决周期。
AIOps 常见问题
AIOps 解决了哪些问题?
AIOps 分析并整合来自多个来源的数据。它会观察并了解环境中的细节,并根据整体体验质量 (QoE) 提供评估。通过这种方式,AIOps 可以关联网络活动,以及时发现并解决问题,从而减轻 IT 运维人员负担,并避免影响最终用户。
AIOps 基于机器学习算法和上下文数据,在问题发生时或发生之前提供根本原因分析。最重要的是,AIOps 使不同专业水平的 IT 人员都能参与故障排除,从而提高整个团队的整体运营效率。
AIOps 有哪些组件?
AIOps 平台利用 ML 和 GenAI 算法以及上下文数据,提供根本原因分析并自动修复网络中的简单问题。AIOps 需要能够关联事件的 AI 引擎以及能够从一组观察结果中提取知识或模式的 AI 算法。虚拟网络助手融合自然语言处理 (NLP) 技术、自然语言理解 (NLU) 和语言生成 (LG) 技术,打造功能强大的对话式交互界面。该界面可精准理解请求上下文,加速故障排查进程,提供智能决策与优化建议,进而简化操作流程。
AIOps 的主要功能有哪些?
- 问题隔离/根本原因分析:当今网络环境下数据体量庞大,不仅难以精准定位故障单中明确提及的问题,更难主动识别那些尚未引起 IT 部门关注的潜在隐患。AIOps 通过处理上下文数据实时关联事件,使运维团队能够及时发现并纠正问题。
- 数据驱动型决策:依托 AI 算法执行基于数据的分析,输出针对性操作建议与补救方案,而非对网络故障或异常情况采取预设化响应。这种以数据为中心的方法提高了运营人员的故障排除效率。
- 预测性报告:AIOps 可预测网络行为,并提供建议或补救措施来修复网络性能下降及其他异常情况。这种根本性转变为运营团队带来显著价值,助力其从被动应对已影响用户与业务的问题,转向主动管理网络运维。因此,IT 部门可以腾出原本用于应对突发事件的时间来聚焦未来的业务目标。