可观察性
什么是可观察性?

可观察性使您能够通过衡量日志、指标和跟踪数据等系统输出,在无需直接访问系统内部工作机制的情况下快速分析、诊断和解决问题。通过收集和解释这些输出,组织可以诊断问题、监控性能并保障复杂分布式系统的可靠性。可观察性超越了典型的监控,它能够详细了解任何条件下的系统状态,使团队能够应对未知或意外行为。

阅读时长:12 分 2 秒 | 发布日期:2026 年 2 月 9 日

目录

    现代 IT 系统中的可观察性指什么?

    可观察性指通过分析系统的输出,了解系统的内部状态并进行有效调试的能力。当今的 IT 系统通常复杂且分布式部署,采用微服务和无服务器函数等技术。与传统监控不同,可观测性支持对系统运行状况进行更深度的分析,即便在出现非预期问题时也能实现。它依赖于丰富的数据源,例如指标、日志、事件和分布式跟踪。

    可观察性的独特之处在于,它允许你对系统提出新的、意想不到的问题。传统监控依赖静态仪表盘和预设的警报阈值来回答预定义的问题,例如: “CPU 使用率是否超过 90%?”。另一方面,可观察性提供了详细的数据,有助于回答新出现的问题,例如: “为什么在上次部署后,只有 EMEA 地区特定 iOS 版本的用户会遇到加载速度慢的问题?”。

    这种回答新问题的能力对于解决复杂系统中的意外问题至关重要,因为无法为从未遇到过的问题设置警报。可观察性为工程师提供了研究新问题、跨多个服务追踪其原因以及了解其对系统的影响所需的详细数据。它假定失败是不可避免的,并使团队能够利用数据快速分析这些失败。

    现代化可观察性将系统性能与业务成果直接联系起来。通过将业务详细信息(例如用户的购物车 ID 或订阅级别)与技术数据(例如缓慢的 API 响应)相结合,您的团队可以直接了解技术问题如何影响业务目标。例如,工程师可以将数据库错误与结账失败事件增多关联起来,评估该缺陷带来的业务财务影响,并基于业务影响而非技术紧急程度来优先安排修复工作。

    可观察系统的核心数据信号是什么?

    可观察系统的核心信号是为充分了解其行为而收集的遥测数据类型。尽管可观察性植根于三个基本要素,但如今的方法已进一步扩展,以应对日益复杂的系统架构带来的挑战。

    可观察性的三大支柱是指标、日志和跟踪:

    • 指标是按时间间隔聚合的数值型时间序列数据点。它们对于跟踪随时间变化的系统运行状况至关重要,可以快速洞见性能、资源使用情况(如 CPU 或内存)和错误率。指标对于创建仪表板和在已知条件下触发警报非常有用。
    • 日志是离散事件的不可变且带有时间标记的记录。用于捕获具有丰富且详细上下文的事件,例如带有完整堆栈跟踪的错误消息或用户登录记录。指标显示出现了问题,而日志则提供了解释问题原因的上下文细节。
    • 分布式跟踪揭示了请求在系统中的端到端路径。跟踪功能跟踪单个用户操作在多个微服务、数据库和 API 中的流转过程,进而描绘整个工作流程。这对于准确定位延迟瓶颈和了解分布式架构中的依赖关系非常重要。然而,在复杂的云原生环境中,仅靠这三大支柱往往是不够的。海量数据与短生命周期服务,使得通过人工方式关联不同数据类型、定位问题根因变得极具挑战。这催生了能够提供更深入洞见的新兴数据信号,包括持续特征分析和业务事件。
    • 持续性能分析通过不断分析 CPU 和内存使用情况,精确到功能或行号,帮助精确定位资源密集型代码。它解释了服务运行缓慢或资源消耗过大的原因,并将显示消耗时间的位置的跟踪数据与导致问题的确切代码联系起来。
    • 业务事件的意义在于将技术性能与业务成果联系起来。通过将高价值操作(如 cart_add 或 payment_processed)作为首要的遥测数据,团队可以直接衡量技术问题对业务的影响(例如,收入损失),从而实现数据驱动型优先级排序。

    如何实施可观察性策略?

    可观察性策略利用技术、标准和文化态度来理解系统行为。可观察性侧重于获得可持续的行为规则,而非简单地部署工具。

    现代化可观察性管道将数据创建与洞见联系起来。仪器化指配置应用程序和基础设施代码以发出遥测数据。收集层(类似于代理)收集此类数据并将其发送到中央处理和存储后端。数据将被索引、关联和存储。在最后阶段,工程师们应用查询语言、仪表板和警报系统来分析数据、发现趋势并修复错误。

    现代仪器化依赖于 OpenTelemetry (OTel),这是一个由云原生计算基金会 (CNCF) 支持的项目和行业标准。OpenTelemetry(OTel)整合了厂商中立的 API、SDK 及工具,用于统一处理指标、日志与链路追踪数据。其主要优势之一是摆脱了供应商锁定。只需使用 OTel 对服务进行一次检测,数据即可路由到任何受支持的后端,使团队无需重写应用程序代码即可更改分析平台。

    在选择工具时,组织可以选择集成的可观察性平台和一流的解决方案。集成式平台提供能自动连接跟踪、日志和指标的单一管理平台,实现平稳调试。最佳单品策略允许团队为每项功能(如日志或链路追踪)选择最优工具,但会增加集成与维护复杂度。

    最后,单靠技术是不够的。要成功实现可观察性,需要向数据驱动型求知能力转变的文化。工程师不应只是对通知被动地做出反应,而应有能力提出问题并深入探究“未知的未知”。这促进了开发、运营和业务团队相互协作,在将事故视为学习机会的非指责型文化氛围下,充分利用可观察的数据。

    可观察性与监控:可观察性与监控有何区别?

    尽管可观察性和监控的目的不同,但它们对于保障系统可靠性来说不可或缺。监控通过既定测量指标和阈值发现已知问题,而可观察性则通过分析系统外部输出(日志、指标、跟踪)推断内部状态,进而发现未知问题。监控有助于在问题发生时作出响应,而可观察性则能帮助理解系统行为。尽管两者目的不同,但对于保障系统可靠性而言均不可或缺。监控通过既定测量指标和阈值发现已知问题,而可观察性则通过分析系统外部输出(日志、指标、跟踪)推断内部状态,进而发现未知问题。监控有助于在问题发生时作出响应,而可观察性则能帮助理解系统行为以便预防和修复问题。

    以下是更为细化的分析:

    监控:

    • 重点:跟踪并显示指标,针对预定情况发出警告,并提供系统正常运行状况的动态视图。
    • 目标:快速识别并解决问题。
    • 数据:主要使用预定义的指标和日志数据。
    • 示例:跟踪内存消耗、HTTP 响应时间和磁盘 I/O 以查明性能问题。

    可观察性

    • 重点:它专注于系统输出,以发现未知问题并理解复杂行为。
    • 目标:深入了解系统行为,以便主动检测问题并调查根本原因。
    • 数据:收集测量数据、日志及跟踪,以全面洞悉系统运行进程。
    • 示例:通过分布式跟踪或日志分析追踪各微服务的请求链路,以定位服务故障。

    主要区别:

    • 可观察性侧重于预防错误以免影响用户,而监控则充当警告系统。
    • 监控通过既定指标解决已识别的故障,而可观察性则分析系统输出和行为以发现未知问题。
    • 监控侧重于单个指标,可观察性则提供系统内部状态的全面情况。
    • 可观察性通过研究系统整体运行环境执行全面的根本原因调查,而监控往往仅能指示故障却无法提供充足的背景信息。

    可观察性的三大支柱是什么?

    可观察性三大支柱

    指标、日志和跟踪对于分析系统的正常运行状况、性能和行为至关重要。通过汇总各个支柱的洞见可全面了解系统活动。跟踪用于遵循分布式系统的请求流,指标提供系统行为及资源使用的数值数据,日志则记录系统事件。这些数据类型可帮助开发人员和运营团队分析和修复故障,提高系统可靠性。

    指标:定量的系统行为

    指标以数字方式衡量系统正常运行状况和行为。这些汇总数据有助于发现模式、创建警报阈值和跟踪资源消耗情况。

    • 监控系统性能的常见指标包括 CPU 使用率、内存消耗、网络延迟和请求率。
    • 指标可以识别异常情况,例如资源使用激增,这可能表明存在潜在问题。
    • 在没有其他数据类型的情况下,单靠指标无从确定具体问题或根本原因。

    日志:全面的系统事件记录

    日志记录指定时间的系统事件。它为调试和根本原因分析提供了详细的系统活动数据。

    • 日志可以指示失败、警告、不成功的数据库请求或身份验证问题。
    • 日志可帮助团队识别导致系统故障或性能问题的事件序列。
    • 鉴于分散系统中存在海量日志,需要借助强大的过滤与索引技术,才能从中获取有价值的洞见。

    跟踪:端到端的请求跟踪

    通过跟踪可追踪分布式系统请求和事务。它们揭示了服务间的交互方式及操作耗时,这使其成为诊断瓶颈与延迟问题的关键。

    • 跟踪能够揭示用户请求在微服务间的具体流转路径,进而定位延迟问题。
    • 在微服务设计中,跟踪机制有助于识别性能瓶颈及失败的依赖关系,因为单个请求可能流经多个服务。
    • 在所有服务中实施全面的检测机制,可能会消耗大量资源以实现有效追踪。

    可观察性有哪些优势?

    可观察性能够提升系统性能与可靠性、用户满意度,优化运营效率,并推动 IT 成果与业务目标的对齐。可观察性通过提供丰富的系统行为洞见,助力团队调试、优化性能,避免问题波及用户或业务运营。主要优势详述如下:

     1. 改进故障排除和解决方案

    更快速的根本原因分析:可观察性工具提供了详细的数据,可帮助团队发现问题。这消除了主观臆测,加快了问题解决速度。

    减少 MTTD 和 MTTR:可观察性加快了故障排除速度,让团队能够专注于创新。

    主动式问题检测:可观察性工具可以在异常和潜在问题影响用户之前发现它们,从而使团队能够修复并避免中断。

    减少警报疲劳:可观察性能够减少无效警报,聚焦可处理的警报,并通过提供问题的深度背景洞察,提升团队效率并缓解工作倦怠。

     2. 提升系统性能和可靠性

    延长正常运行时间、提升可靠性:可观察性使团队能够实时访问系统性能以检测和修复瓶颈。

    性能优化:团队可以通过评估数据、跟踪和日志来发现效率低下的问题并优化系统性能。

    更快地大规模交付软件:可观察性使团队能够全面了解系统活动,进而自信地部署、更新和扩展软件,而不会受到干扰。

     3. 基础设施、云和 Kubernetes 监控

    现代分布式系统(如云平台、本地基础设施和 Kubernetes 群集)需要可观察性。

    优势:团队可充分利用资源,管理容器化工作负载,并无缝扩展服务。

    可观察性工具可以监控 Kubernetes Pod 的正常运行状况、检测失败的部署并优化云资源成本以提高效率。

     4. 改善用户体验

    可观察性通过缩短停机时间、提升性能,并在问题恶化前解决隐患,持续保障程序稳定与响应能力,进而优化用户体验。

    用户满意度:更流畅、可靠的系统能够提升用户满意度与忠诚度,进而提高客户留存率和业务成功率。

     5. 业务分析

    可观察性通过提供数据支撑决策,实现 IT 运营与业务成果的联动。

    优势:团队能够将技术指标与公司关键 KPI 相挂钩,例如收入、用户留存率及客户满意度。

    可观察性解决方案可以评估停机时间对收入的影响,使公司能够选择投资回报率最高的改进措施。

     6. DevOps/DevSecOps 自动化

    可观察性数据不但优化了 CI/CD 管道、资源扩展和事件响应工作流程,而且简化了自动化。减少人工参与并提高效率。

    提高安全性:可观察性工具能够检测异常行为、可疑活动及安全漏洞,助力团队防范和抵御安全威胁。

     7. 提高运营效率

    可观察性可自动发出警报、检测异常和调查根本原因,从而简化工作流程。这减少了人工操作,使团队能够聚焦战略目标,从而提升运营效率。

     8. 高性价比

    可观察性通过提高系统效率、减少停机时间和优化资源利用来降低运营成本。通过查找闲置云资源,企业可以在不牺牲性能的前提下节省成本。

     9. 数据可见性的优势

    数据管道的可观察性能够帮助团队在验证系统性能的同时,保障数据质量、完整性及合规性。

    可观察性的未来是什么 — AI 和可观察性?

    可观察性的未来:AI 和趋势

    随着系统复杂度的持续提升,AI、自动化技术与新型计算范式正重塑可观察性的发展路径。这些技术革新正推动系统监控与管理向智能化、自动化和自适应方向迈进。以下是主要发展情况。

    1. AI 驱动型可观察性

    AI 和机器学习实现了大规模异常识别和预测洞察,彻底改变了可观察性。

    • AI 驱动型可观察性技术可以实时发现异常,使团队能够及时处理潜在问题,避免恶化。
    • 预测可观察性:机器学习模型为系统故障、资源短缺和性能瓶颈提供主动式解决方案,可减少停机时间并提高可靠性。

    AI 可观察性增加了根本原因分析,减少了疲劳警报并强化了系统。

    2. 新领域可观察性

    可观察性不断提高,以融入无服务器、边缘和物联网技术。

    • 无服务器和 Kubernetes:可观察性解决方案能够适应 Kubernetes 和无服务器架构等动态环境,实现无缝分布式系统监控。
    • 物联网和边缘计算:边缘计算和物联网设备使得可观察性对于监控分布式基础设施和维护连接设备之间的数据完整性至关重要。

    现代分散化系统需要可观察性,而这些技术成果提供了这种可观察性。

    3. 自动化与可观察性即代码的集成

    将可观察性与 AIOps 和自动化相结合是大势所趋。可观察性即代码方法简化了程序化可观察性配置定义和管理,实现与 DevOps 工作流程的协同,并提升系统可扩展性。

    HPE 和 OpsRamp 如何转变混合云和 AI 的可观察性?

    HPE 和 OpsRamp 利用混合云管理和借助 AI 技术获得的运营专业知识重新定义了可观察性。这一联合解决了管理现代 IT 环境的挑战,此类环境越来越多地分散在本地、云端和边缘基础设施中。HPE 和 OpsRamp 通过将强大的可观察性与 AI 和自动化相结合,帮助企业构建持久、可扩展且高效的系统。

    改进的混合云可观察性

    跨异构基础设施的分布式工作负载管理、互操作性及可见性,是混合云部署的独特特性。HPE 和 OpsRamp 解决方案着力于解决以下问题:

    • 其统一监控平台实现了对本地部署、云端及边缘系统的可视化管理,助力企业通过单一控制台监控混合云基础设施。
    • OpsRamp 的技术提供了关于混合环境中基础设施正常运行状况、资源利用情况及性能表现的全面洞察。

    AI 加持的可观察性

    HPE 和 OpsRamp 如今借助先进的 AI 技术来提高可观察性:

    • 主动式异常检测:AI 支持在混合云系统中进行主动式异常检测,防止潜在问题影响运营。
    • 预测性分析:机器学习模型可预估资源需求和系统行为,实现主动式扩展和优化。
    • 问题解决效率提升:AI 驱动型根本原因分析与自动修复机制缩短了 MTTR,可实现事件的快速恢复。

    将自动化与 AIOps 集成

    这一联合重点在于利用可观察性和 AIOps 实现 IT 运维自动化:

    • 事件关联:OpsRamp 技术通过智能关联可观察性数据与事件管理工作流,有效过滤干扰信息并加速决策进程。
    • 自动修复:AI 驱动型工具通过自动执行纠正活动使 IT 专业人员能够专注于处理战略项目。

    支持边缘计算和物联网

    HPE 和 OpsRamp 提供对大规模分布式边缘计算和物联网设备的可见性和管理。对于管理连接的设备和远程基础设施中的数据和工作负载的企业来说,这一点至关重要。

    常见问题

    可观察性在实际应用中的简单例子是什么?

    用户反映结账速度较慢。借助 HPE OpsRamp 等平台,工程师可以跟踪单个用户请求在所有服务中的执行情况。OpsRamp 的关联数据能够精准定位真正的瓶颈—— 即执行缓慢的数据库查询,而非仅发出一般性的 CPU 告警。提供上下文相关的可行答案有助于快速解决根本原因。这使得可观察性超越了简单的监控,达到了智能解决问题的层面。

    可观察性是否仅适用于微服务和 Kubernetes?

    不。虽然可观察性对于复杂系统至关重要,但它可用于任何环境。例如,HPE OpsRamp 专为混合 IT 环境而构建,提供了对现代化云原生应用和传统单体系统的详细可见性。它统一了所有可观察性数据,使团队能够应对新挑战并了解万物如何互连,无论环境如何。

    可观察性和应用性能管理 (APM) 之间有什么区别?

    APM 只是可观察性的一个方面,传统上侧重于测量应用的响应时间。像 HPE OpsRamp 这样的现代化可观察性平台可以帮助您研究“未知的未知”。OpsRamp 将应用数据与基础设施变更联系起来,以揭示意外的根本原因,超越静态仪表板进行真正的调查。

    我该如何在自己的组织中开始实施可观察性?

    从关键服务入手,部署 HPE OpsRamp。开始使用其发现和检测功能收集指标、日志、事件和跟踪信息。OpsRamp 的 AIOps 引擎可自动关联数据,提供快速且相关的洞见。这使得团队能够快速展示价值,通过单一解决方案在企业范围内扩展可观察性实践。

    HPE OpsRamp Software 套件是否是一款完整的可观察性工具?

    HPE OpsRamp 是一款 AI 驱动型平台,可让您全面了解自己的混合 IT 环境。它可分析指标、日志、跟踪和事件,将基础设施、云服务和应用的可观察性统一起来。事件管理引擎关联数据,提供智能的根本原因分析和服务级别洞见,使其成为企业的有力选择。

    可观察性能否帮助预测系统故障的发生?

    是,HPE OpsRamp 使用机器学习来分析异常情况并预测延迟峰值或异常错误模式等问题。这样可以在故障影响用户之前解决它们,提高系统稳定性和正常运行时间。

    在可观察性中,数据相关性是如何运作的?

    HPE OpsRamp 可自动关联数据,利用请求 ID 等上下文信息将指标、日志和跟踪信息关联起来。OpsRamp 可以显示指标峰值的具体跟踪和日志。这可将分散的数据整合为可操作的叙述,加快根本原因调查。

    相关主题