재난 복구
재난 복구란?

IT에 있어 DR(재난 복구)은 재난 발생 시 비즈니스 IT 인프라를 복구하고 보호하기 위해 마련한 전략, 프로세스, 제품 및 솔루션을 의미합니다. 재난으로는 자연재해, 사이버 공격, 하드웨어 장애 및 기타 재난으로 인한 이벤트가 포함됩니다.

재난 복구는 재난 발생 시 가동 중지 시간을 최소화하고 데이터 무결성을 보호하므로 매우 중요하며, 기업이 신속하게 운영을 재개하고 서비스 중단으로 인한 영향을 줄이는 데 도움이 됩니다. 모든 기업은 비즈니스 연속성 및 비즈니스 회복 탄력성 전략의 일환으로 재난 복구 계획과 사이버 복구 계획을 갖추어야 합니다.

읽는 시간: 4분 13초

목차

    DRP(재난 복구 계획)의 정의와 중요성

    재난 복구 계획은 계획되지 않은 비즈니스 중단에 대응하기 위한 지침을 문서화한 체계적 접근 방식으로, IT 인프라, 애플리케이션 및 데이터를 복구하기 위한 세부 계획을 포함합니다.

    DRP에는 다음이 포함되어야 합니다.

    • 위험 평가 및 비즈니스 영향 분석
    • RTO 및 RPO(복구 시간 및 복구 시점 목표)
    • 자세한 복구 절차
    • 역할 및 책임
    • 재난 복구 커뮤니케이션 계획
    • 재난 복구와 백업 솔루션의 결합
    • 테스트 및 업데이트

    DRP는 다음을 보장해야 합니다.

    • 재난 발생 도중과 재난 발생 후에도 중요한 비즈니스 기능의 지속을 보장하는 비즈니스 연속성
    • 중요한 데이터의 손실 또는 손상을 방지하는 데이터 보호
    • 정상 운영을 복구하는 데 걸리는 시간을 단축하고 재정과 평판에 미치는 영향을 최소화하는 가동 중지 시간 최소화
    • 규제 준수를 통한 데이터 보호 및 비즈니스 연속성 보장
    • 실제 재난 발생 시 혼란과 공포를 줄일 수 있는 체계적인 재난 대응 준비성

    DRP는 조직의 위험 관리 전략에 필수적인 구성 요소로, 예상치 못한 사건이 발생해도 중단으로부터 신속하게 복구하고 비즈니스 연속성을 유지할 수 있도록 합니다.

    RTO와 RPO의 정의

    재난 복구에서 가장 중요한 두 가지 요소는 가능하면 빨리 운영을 다시 온라인 상태로 만드는 것(RTO)과 데이터 손실을 방지하는 것(RPO)입니다.

    • RTO(복구 시간 목표)는 재난 발생 후 돌이킬 수 없는 결과를 피하기 위해 비즈니스 과정을 복구해야 하는 목표 기간으로, 허용 가능한 최대 중단 시간과 재난 복구 솔루션 및 복구 실행 계획의 역량을 모두 고려하여 계산됩니다.
    • RPO(복구 시점 목표)는 시간에 따라 측정된 최대 허용 가능한 데이터 손실량으로서 허용 가능한 데이터 손실량과 데이터 보호, 재난 복구 계획 및 솔루션을 통해 기술적으로 방지할 수 있는 데이터 손실량을 종합하여 계산됩니다.

    RTO와 RPO는 비즈니스 영향 분석이나 위험 평가에 따라 애플리케이션과 데이터셋마다 달라질 수 있습니다. 중요한 시스템의 RTO와 RPO는 분이나 초 단위로 측정되는 반면, 중요하지 않은 시스템의 RTO와 RPO는 시간, 일 또는 주 단위로도 측정됩니다. RTO와 RPO의 목적이 기업의 재정과 평판에 심각한 피해를 끼칠 수 있는 중단 시간과 데이터 손실을 방지하는 것이므로 재난 복구 계획에서 RTO와 RPO가 매우 중요합니다.

    분 단위로 측정되는 공격적인 RTO는 보통 장애 조치 및 장애 복구를 통해 달성됩니다. 장애 조치는 일반적으로 중단이 발생했을 때 수동으로 시작되는 자동화된 프로세스로, 중단된 애플리케이션이나 데이터 워크로드를 대체하는 복제 워크로드를 신속하게 온라인으로 전환합니다.

    장애 조치 중에 사용자의 관점에서는 애플리케이션과 데이터가 몇 분 내에 다시 온라인으로 전환되어 기본 워크로드가 다시 온라인 상태가 된 것처럼 보입니다. 백엔드에서는 이제 워크로드가 원격 재난 복구 사이트에 위치할 수 있는 복제본에서 실행됩니다. 장애 복구는 중단으로부터 완전히 복원된 후 사용자를 기본 워크로드로 다시 전환하는 프로세스입니다.

    장애 조치와 장애 복구는 일반적으로 백업에서 워크로드를 복구하는 것과 비교하여 중단 시간과 RTO를 몇 시간 또는 며칠에서 몇 분으로 단축합니다. 마찬가지로 주기적인 백업 기술 대신 실시간 복제 솔루션을 사용하면 RPO도 몇 시간이나 며칠이 아닌 몇 초 단위로 줄일 수 있습니다.

    재난 복구 테스트의 정의

    재난 복구 테스트는 재난 복구 계획과 솔루션이 의도한 대로 작동하는지 확인하기 위한 일련의 연습 및 검증 절차입니다. 재난 복구 테스트는 데이터 보호 규정을 준수하고 업계 표준을 유지하기 위한 요건인 경우가 많습니다. 직원들에게 재난 복구 계획에 대한 교육을 실시하고, 테스트 결과에 따라 재난 복구 계획을 업데이트하는 것은 가치 있는 활동입니다.

    재난 복구 테스트의 이점:

    • 데이터 보호 규정 및 표준 준수
    • 재난 복구 계획 검증 및 업데이트
    • 재난 복구 계획 및 절차에 대한 직원 교육 유지
    • RTO, RPO, SLA(서비스 수준 계약) 검증

    재난 복구 테스트는 단일 애플리케이션이나 데이터셋을 복구하는 것부터 자연재해와 같은 특정한 중단을 시뮬레이션하는 전체 사이트 수준 또는 다중 사이트 재난 복구까지 범위가 다양합니다. 테스트 규모가 커질수록 더 큰 중단을 유발하고 더 많은 리소스가 필요하기 때문에 소규모 테스트보다 수행 빈도가 낮은 경우가 많습니다.

    테스트 수행 빈도는 일반적으로 테스트에 소요되는 시간과 운영에 미치는 영향에 따라 달라집니다. 재난 복구 툴의 기능에 따라 단일 애플리케이션을 테스트하는 것만으로도 생산성에 지장을 줄 수 있습니다. 이상적으로는 프로덕션을 중단하지 않고도 테스트할 수 있도록 테스트 기능이 내장된 재난 복구 툴을 사용하는 것이 좋습니다. 이러한 툴을 사용하면 테스트를 자주 수행할 수 있습니다.

    재난 복구 테스트 성공 사례:

    • 자주 테스트 - 이상적으로는 분기별 또는 연 2회
    • 가장 공격적인 RTO 및 RPO가 적용되는 중요한 워크로드를 우선 테스트
    • 모든 워크로드를 해당 RTO, RPO, SLA에 맞춰 테스트
    • 애플리케이션 및 네트워크 관리자와 협력하여 테스트 검증 
    • 테스트 결과를 문서화하고 필요에 따라 재난 복구 계획 업데이트

    HPE의 재난 복구용 제품

    HPE Zerto Software는 조직이 재난 복구 기능을 통해 데이터와 애플리케이션을 중단으로부터 보호할 수 있도록 지원합니다.

    CDP(지속적인 데이터 보호): HPE Zerto Software는 실시간으로 운영 환경의 데이터를 보조 사이트로 계속해서 복제합니다. 이를 통해 복제된 데이터가 항상 최신 상태를 유지하므로 재난 발생 시 데이터 손실을 최소화할 수 있습니다.

    저널 기반 복구: HPE Zerto Software는 보호된 모든 가상 시스템에 대해 몇 초 간격으로 생성된 복구 시점의 저널을 보관합니다. 조직은 이 저널을 통해 저널의 보관 기간 내 임의 시점의 데이터를 복구할 수 있습니다. 이 기능은 데이터가 처음 손상되기 몇 초 전의 지점으로 재난을 복구하는 데 있어 필수적입니다.

    애플리케이션 및 VM 일관성: HPE Zerto Software는 여러 가상 시스템과 애플리케이션에서 일관된 복구 시점을 생성할 수 있습니다. 이를 통해 애플리케이션의 모든 구성 요소가 동일한 시점으로 복구되어 데이터 무결성과 애플리케이션 일관성이 유지됩니다.

    자동 장애 조치 및 장애 복구: HPE Zerto Software는 장애 조치 프로세스를 자동화하여 빠르고 예측 가능한 방식으로 보조 사이트에 서비스를 복구할 수 있도록 지원합니다. 마찬가지로 장애 복구 프로세스를 자동화하여 문제가 해결되면 조직이 기본 사이트로 운영을 되돌릴 수 있습니다.

    무중단 테스트: HPE Zerto Software를 사용하면 프로덕션 환경에 영향을 미치지 않고 재난 복구 계획을 테스트할 수 있습니다. 무중단 테스트를 통해 DR 계획이 효과적인지, 그리고 직원들이 복구 절차를 잘 알고 있는지 확인할 수 있습니다.

    멀티 클라우드 및 하이브리드 클라우드 지원: HPE Zerto Software는 온프레미스 데이터 센터, 퍼블릭 클라우드(AWS, Azure, Google Cloud 등), 하이브리드 클라우드 구성을 포함한 다양한 환경 간의 복제를 지원합니다. 이러한 유연성 덕분에 조직은 자체적인 필요에 맞춰 가장 적합한 재난 복구 전략을 선택할 수 있습니다.

    확장성: HPE Zerto Software는 조직의 성장에 따라 확장되도록 설계됩니다. 또한 소수의 가상 시스템을 보호하거나 여러 사이트와 클라우드에 걸쳐 수천 개의 VM을 보호하도록 확장할 수 있습니다.

    오케스트레이션 및 자동화: HPE Zerto Software에는 복구 프로세스를 간소화하는 오케스트레이션 및 자동화 기능이 포함되어 있습니다. 조직은 가상 시스템, 네트워크 구성 및 기타 필요한 단계에 대한 복구 순서를 지정하는 복구 계획을 정의할 수 있습니다.

    분석 및 보고: HPE Zerto Software는 조직이 재난 복구 준비 상태, 복제 성능, 리소스 활용도를 파악할 수 있도록 고급 분석 및 보고 기능을 제공합니다. 이러한 인사이트는 DR 전략을 최적화하고 내부 및 외부 요건을 준수하는 데 도움이 됩니다.

    규제 준수 및 감사: HPE Zerto Software는 장애 조치 테스트와 실제 장애 조치를 포함한 DR 활동에 대한 세부 로그와 보고서를 제공하고, 조직은 이를 통해 컴플라이언스 요건을 충족할 수 있습니다. 이러한 로그는 감사와 규제 표준 준수 보장에 유용합니다.

    랜섬웨어 복원력: HPE Zerto Software의 실시간 암호화 감지, 변경 불가능한 데이터 사본, 저널 기반 복구 기능을 통해 위협을 조기에 감지하고 복구 데이터를 보호하며 랜섬웨어 공격 이전 시점으로 빠르게 복원하여 데이터 손실과 가동 중지 시간을 최소화할 수 있습니다.

    HPE Zerto Software는 지속적인 데이터 보호, 애플리케이션 일관성, 자동 장애 조치 및 장애 복구, 무중단 테스트, 멀티 클라우드 지원, 확장성, 오케스트레이션, 포괄적 분석 및 강력한 컴플라이언스 기능을 제공하여 재난 복구를 강화합니다. 이러한 포괄적인 접근 방식을 통해 조직은 데이터와 애플리케이션을 효과적으로 보호하고 가동 중지 시간을 최소화하며 중단 발생 시에도 비즈니스 연속성을 유지할 수 있습니다.

    재난 복구와 사이버 복구의 차이점

    재난 복구와 사이버 복구는 조직의 복원력 전략에 매우 중요합니다. 사이버 복구는 다른 유형의 재난과 달리 복구를 방해하기 위해 고안된 악의적인 행동을 포함하는 사이버 공격 문제에 분명하게 대처합니다. 견고한 비즈니스 연속성 복구 아키텍처를 구축하려면 각각의 차이점과 상호 작용을 이해해야 합니다.

    • 유사성:

    - 두 가지 모두 비즈니스 연속성을 위해 IT 서비스와 데이터를 복원합니다. 
    - 효과적으로 작동하려면 잦은 테스트와 업그레이드가 필요합니다. 
    - 두 가지 모두 중단으로 인한 가동 중지 시간과 운영에 미치는 영향을 줄여줍니다. 

    • 작동 방식:

    기업은 다양한 위협을 관리하기 위해 사이버 및 재난 복구를 단일 비즈니스 연속성 계획으로 통합해야 합니다. 이를 위해 다음이 필요합니다. 

    - 사이버 및 기타 복구 계획의 조정 
    - 사이버 공격에 대비한 백업 시스템 설치 
    - 격차를 찾기 위한 대응 계획 테스트 
    - IT 보안 및 비즈니스 연속성 팀의 협업 추진 

    이러한 방법을 결합한 기업은 운영을 보호하고 비용을 제한하며 사이버 공격 및 자연재해와 같은 중단으로부터 신속하게 복구할 수 있습니다.

    재난 복구와 사이버 복구의 주요 차이점

    사항
    재난 복구
    사이버 복구

     

    중점

    자연재해, 하드웨어 결함, 인적 오류 등 다양한 중단으로부터 복구

    랜섬웨어와 같이 가동 중지 시간 및 데이터 손실을 유발하는 사이버 위협으로부터 복구

    위협 해결

    IT 인프라와 비즈니스 운영에 영향을 미치는 자연 또는 인적 중단

    데이터를 손상하고 복구를 방해하려는 악의적인 사이버 활동

     

    범위

    IT 인프라, 애플리케이션 및 데이터 복구, 경우에 따라 운영 이전 필요

     

    데이터 무결성 복구, 침해된 시스템 보호, 사이버 위협 제거

    구성 요소

    데이터 백업, 시스템 장애 조치, 대체 사이트 배치, 비즈니스 연속성 계획 및 인프라 복원

     

    사고 대응, 포렌식 분석, 맬웨어 제거, 사이버 보안 조치 및 보안 데이터 백업

     

    목표

    IT 시스템과 비즈니스 운영을 복구하여 가동 중지 시간과 재정적 손실 최소화

     

    데이터 보안을 보장하는 동시에 사이버 위협을 억제 및 제거하고 이로부터 복구

     

    관련 주제