灾难恢复
什么是灾难恢复?

在 IT 领域,灾难恢复 (DR) 是指在发生灾难时,为保护和恢复企业 IT 基础设施所采取的策略、流程、产品和解决方案。这些灾难包括自然灾害、网络攻击、硬件故障和其他灾难性事件。

灾难恢复至关重要,因为它可以尽可能缩短灾难造成的停机时间并保护数据完整性。它可以帮助企业快速恢复运营并降低干扰带来的影响。所有企业都应制定灾难恢复计划和网络恢复计划,作为其业务连续性和业务恢复能力策略的一部分。

阅读时长:4 分 13 秒 | 发布日期:2026 年 1 月 23 日

目录

    什么是灾难恢复计划 (DRP)?为什么它如此重要?

    灾难恢复计划是一套成文的、结构化的方法,包含应对非计划内业务中断的详细操作指南。它包括说明如何恢复 IT 基础设施、应用和数据的详细计划。

    DRP 应包括:

    • 风险评估和业务影响分析
    • 恢复时间目标和恢复点目标(RTO 和 RPO)
    • 详细的恢复程序
    • 角色与职责
    • 灾难恢复通信计划
    • 灾难恢复与备份解决方案的组合
    • 测试和更新

    DRP 确保:

    • 业务连续性,使关键业务功能能够在灾难期间和灾难后继续运行
    • 数据保护,防止重要数据丢失或损坏
    • 最大程度减少停机时间,从而减少恢复正常运行所需的时间,最大程度降低财务和声誉方面的影响
    • 满足数据保护和业务连续性方面的监管要求
    • 做好结构化的灾难应对准备,减少实际事件发生时的恐慌和混乱

    DRP 是组织风险管理战略的重要组成部分,可确保组织从干扰中快速恢复并在发生不可预见的事件时保持业务连续性。

    什么是 RTO 和 RPO?

    灾难恢复中的两个最重要因素是尽快恢复运营 (RTO) 和防止数据丢失 (RPO)。

    • RTO(恢复时间目标)指在灾难发生后,业务流程必须在指定时间内恢复,以避免出现不可接受的后果。RTO 是根据最大可容忍停机时间以及灾难恢复解决方案和执行恢复计划的能力确定的。
    • RPO(恢复点目标)指可接受的最大数据丢失量,以时间为衡量单位。RPO 取决于数据保护和灾难恢复计划及解决方案可容忍的数据丢失程度,以及在技术上可防止的数据丢失程度。

    不同应用和数据集的 RTO 和 RPO 会有所不同,具体取决于业务影响分析或风险评估。关键系统的 RTO 和 RPO 可能以分钟或秒来衡量,而非关键系统的 RTO 和 RPO 可能以小时、天甚至周来衡量。RTO 和 RPO 的目的是防止宕机和数据丢失,而宕机和数据丢失会对企业的财务和声誉造成严重影响,这就是 RTO 和 RPO 在灾难恢复规划中如此重要的原因。

    以分钟为单位的进取型 RTO 通常通过故障转移和故障恢复实现。故障转移通常是一个自动化过程,在发生中断时手动启动,使副本工作负载快速上线,取代中断的应用或数据工作负载。

    在故障转移期间,从用户的角度来看,应用和数据会在几分钟内恢复在线,就像主工作负载恢复在线一样。而在后端,工作负载现在从可能位于远程灾难恢复站点的副本运行。故障恢复指在从中断中完全恢复后,将用户转移回主工作负载的过程。

    与从备份中恢复工作负载相比,故障转移和故障恢复通常可以将停机时间和 RTO 从数小时或数天减少到数分钟。类似地,通过使用实时复制解决方案而非定期备份技术,RPO 可以缩短至数秒,而非数小时或数天。

    什么是灾难恢复测试?

    灾难恢复测试是一系列练习和验证,目的是确认灾难恢复计划和解决方案是否按预期工作。灾难恢复测试通常是遵守数据保护法规以及维护行业标准的要求。培训员工掌握灾难恢复计划并根据测试结果更新计划,是极具价值的实践。

    灾难恢复测试的好处:

    • 有利于遵守数据保护法规和标准
    • 验证并更新灾难恢复计划
    • 对员工持续进行灾难恢复计划和程序方面的培训
    • 验证 RTO、RPO 和服务级别协议 (SLA)

    灾难恢复测试的范围可从单一应用/数据集恢复,延伸至模拟自然灾害等特定中断场景的全站点级或多站点灾难恢复。较大规模的测试可能会造成较大干扰并需要较多资源,因此它们的执行频率通常比小规模测试小。

    测试的频率通常取决于所耗费时间以及测试对运营的干扰程度。即使测试单个应用也可能导致生产中断,具体取决于灾难恢复工具的功能。理想情况下,灾难恢复工具应具有内置的测试功能,可在不中断生产的情况下完成测试。有了这些工具,就可以频繁地进行测试。

    灾难恢复测试的最佳实践:

    • 经常测试 – 最好每季度或者每年两次
    • 优先测试具有最进取 RTO 和 RPO 的最关键工作负载
    • 根据 RTO、RPO 和 SLA 测试所有工作负载
    • 与应用程序和网络管理员一起验证测试
    • 记录测试结果并根据需要更新灾难恢复计划

    HPE 为灾难恢复提供了什么?

    HPE Zerto Software 通过以下灾难恢复功能帮助组织保护其数据和应用免于中断威胁:

    持续数据保护 (CDP):HPE Zerto Software 实时将生产环境中的数据连续复制到辅助站点。这确保了所复制的数据始终是最新的,从而在发生灾难时将数据损失降至最低。

    基于日志的恢复:HPE Zerto Software 为受保护的所有虚拟机保留所创建的恢复点的日志,这些恢复点之间相隔几秒。组织可以利用此日志,从日志保留期内的任何时间点恢复数据。这种能力对于从灾难中恢复到数据首次受损前几秒的状态至关重要。

    应用和虚拟机一致性:HPE Zerto Software 能够跨多个虚拟机和应用创建一致的恢复点。这可确保应用的所有组件都恢复到同一时间点,从而保持数据完整性和应用一致性。

    自动故障转移和故障恢复:HPE Zerto Software 自动化了故障转移过程,能够快速且可预测地将服务恢复到辅助站点。同样,它可以自动执行故障恢复过程,使组织能够在问题解决后将运营恢复到主站点。

    无干扰测试:HPE Zerto Software 使组织能够在不影响生产环境的前提下测试其灾难恢复计划,这种无干扰测试确保了灾难恢复计划的有效性,并使相关人员熟悉恢复流程。

    多云和混合云支持:HPE Zerto Software 支持在各种环境之间的相互复制,包括内部数据中心、公有云(如 AWS、Azure 和 Google Cloud)以及混合云配置。这种灵活性使组织能够根据其需求选择最佳的 DR 策略。

    可扩展性:HPE Zerto Software 设计为随着组织的增长而扩展。它可以保护少量虚拟机,也可以扩展到保护多个站点和云中的数千台虚拟机。

    编排和自动化:HPE Zerto Software 具有可简化恢复过程的编排和自动化功能。组织可以定义恢复计划,指定虚拟机、网络配置的恢复和其他必要步骤的顺序。

    分析和报告:HPE Zerto Software 提供高级分析和报告功能,使组织能够了解其灾难恢复准备情况、复制性能和资源利用率。这些洞见有助于优化 DR 策略并确保符合各种内部和外部要求。

    合规性与审计:HPE Zerto Software 提供 DR 活动的详细日志和报告(包括故障转移测试和实际故障转移),帮助组织满足合规性要求。这些日志对于审计以及确保遵守相关监管标准非常有用。

    勒索软件恢复:HPE Zerto Soft 实时加密检测、不可变数据副本和基于日志的恢复功能可实现早期威胁检测、恢复数据保护和快速恢复到勒索软件攻击前的时间点,从而最大限度地减少数据丢失和停机时间。

    HPE Zerto Software 提供持续数据保护、应用一致性、自动故障转移和故障恢复、无干扰测试、多云支持、可扩展性、编排功能、全面分析和强大的合规性功能,极大提高了用户的灾难恢复能力。这种全面的方法可确保组织能够有效地保护其数据和应用、最大限度减少停机时间并在发生干扰时保持业务连续性。

    灾难恢复和网络恢复有什么区别?

    灾难恢复和网络恢复对于组织的恢复能力战略至关重要。网络恢复明确针对与网络攻击相关的问题,这些攻击与其他类型的灾难不同,其中包含了旨在阻止恢复的恶意行为。要构建坚实的业务连续性恢复架构,需要了解两者之间的差异和相互作用。

    • 相似之处:

    两者均用于还原 IT 服务和数据以确保业务连续性。
    它们需要频繁测试和升级才能正常工作。
    两者都减少了与中断相关的停机时间和运营影响。

    • 搭配使用的方式:

    企业应将网络和灾难恢复整合到单一业务连续性计划中,以应对各种威胁。这意味着:

    - 协调网络和非网络恢复计划。
    - 安装具备网络攻击防护能力的备份系统。
    - 一起测试响应计划以找出差距。
    - 确保 IT 安全和业务连续性团队有效协作。

    结合使用这些方法有助于公司保护运营、限制成本并从网络攻击和自然灾害等干扰中快速恢复。

    灾难恢复与网络恢复的主要区别

    方面
    灾难恢复
    网络恢复

     

    关注点

    从各种干扰中恢复,包括自然灾害、硬件故障和人为错误

    从导致停机和数据丢失的网络威胁(如勒索软件)中恢复

    应对的威胁

    影响 IT 基础设施和业务运营的自然和人为干扰

    旨在破坏数据并阻止恢复的恶意网络活动

     

    范围

    恢复 IT 基础设施、应用和数据,有时需要重新部署运营工作

     

    恢复数据完整性、保护受损系统并消除网络威胁

    组件

    数据备份、系统故障转移、备用站点安排、业务连续性规划和基础设施恢复

     

    事故响应、取证分析、恶意软件根除、网络安全措施和安全数据备份

     

    目标

    通过还原 IT 系统和业务运营,最大限度减少停机时间和财务损失

     

    在确保数据安全的同时,遏制、消除并从网络威胁中恢复

     

    常见问题

    什么是 IT 灾难恢复?

    IT 灾难恢复是指在发生导致停机或数据丢失的中断后,恢复系统的过程。它着力于快速恢复关键业务系统上线,将数据和应用恢复到生产站点或灾难恢复站点以供临时运行,直到生产站点完全恢复。

    灾难恢复与业务连续性有何不同?

    灾难恢复侧重于在中断后恢复 IT 系统和数据,而业务连续性则是一种更广层面的策略,旨在确保整个业务在事件发生期间和之后继续运营,包括流程、人员和设施。

    IT 团队在灾难恢复方面面临的最大挑战是什么?

    IT 团队在灾难恢复领域面临的主要挑战包括:预算资源有限、需随技术演进持续更新恢复计划、确保相关人员具备充分的应急准备能力、维护安全可靠的数据备份、管理日益复杂的系统依赖关系、定期开展恢复计划测试,以及满足严苛的合规与监管要求。

    灾难恢复计划应多久测试一次?

    灾难恢复计划至少每年要进行一次全面测试,并在任何重大系统或基础设施变更后进行测试。许多组织还会按季度或每半年开展一次测试,以确保应急准备到位、识别能力差距,并验证恢复流程的有效性。

    灾难恢复解决方案中通常采用哪些技术?

    常见的灾难恢复技术包括持续数据保护 (CDP)、基于云的备份与恢复、数据复制、用于快速恢复的虚拟化、高可用性群集、自动化故障转移和编排工具。这些技术相结合,可最大限度地缩短停机时间,保障数据完整性,并加快中断期间的恢复速度。

    相关主题