RTO与RPO:理解DR的关键差异

举报
kaliarch 发表于 2022/10/15 14:13:27 2022/10/15
【摘要】 现在,所有组织都必须制定一个全面的灾后恢复计划,以确保在发生破坏性事件后的业务连续性。恢复点目标和恢复时间目标是每一个数据保护计划的核心两个重要参数。各组织越来越依赖备份来保护其数据,并在发生灾难时确保业务连续性。然而,据估计,超过72%的企业无法满足与其恢复点目标(RPO)和恢复时间目标(RTO)相关的it恢复预期。为了帮助您创建有效的恢复计划,您必须对RTO和RPO有一个完整的理解,并了...

现在,所有组织都必须制定一个全面的灾后恢复计划,以确保在发生破坏性事件后的业务连续性。恢复点目标和恢复时间目标是每一个数据保护计划的核心两个重要参数。

各组织越来越依赖备份来保护其数据,并在发生灾难时确保业务连续性。然而,据估计,超过72%的企业无法满足与其恢复点目标(RPO)和恢复时间目标(RTO)相关的it恢复预期。
为了帮助您创建有效的恢复计划,您必须对RTO和RPO有一个完整的理解,并了解它们的区别。这篇文章解释了对于可靠的灾难恢复策略,您需要了解的关于这两个参数的所有信息。请继续阅读,了解如何实现更严格的RPO和RTO,以最大限度地减少数据损失,并在灾难发生后尽快恢复正常的业务操作。

什么是RTO?

恢复时间目标(RTO)是指在破坏性事件发生后,组织可以容忍的最大停机时间。换句话说,RTO是从灾难发生到恢复受影响的关键工作负载之间的持续时间。
RTO计算通常取决于灾难恢复计划、可用资源和预算。当您的IT基础结构不可用时,您需要一些时间来确定失败的原因并采取必要的措施来修复问题。但是,灾难恢复步骤应该到位,以确保在解决生产问题的同时,关键系统和工作负载是可访问和可用的。您的RTO是从故障到系统通过备份或副本工作负载可用之间的时间。

什么是RPO?

恢复点目标(RPO)表示组织在灾难中能够承受的最大数据量,而不会造成严重后果。此度量标准以自上次备份/复制过程以来的小时/分钟为单位度量。使用它来确定需要创建数据备份和副本的频率,以减少破坏性事件后的数据丢失。
在理想情况下,备份或复制作业是在原始计算机失败之前完成的。但是,这在实际生活中很少见,所以在创建上一次成功备份的时刻和原始机器失败的时刻之间有一段距离。在此期间,VM正在执行操作和存储数据,而这些数据很可能会丢失。

什么是容灾中的RTO和RPO

数据保护的最终目标是明确的:您希望确保在出现问题时关键数据不会丢失,并且能够在正常运行时间和可用性方面满足组织的SLA。但是,将虚拟环境中的所有更改实时镜像到灾难恢复(DR)站点的成本相当高。这就是为什么您需要接受这样的想法,即在中断的情况下,您将丢失一些数据,您的IT服务将被中断。因此,您的任务是最大限度地减少这些损失和中断。
让我们用一个简单的图表来说明RPO和RTO的概念:

该图显示了一个常见的场景:虚拟机由于某种原因崩溃。黄线表示RPO,它是上次备份和中断之间的时间。橙色线是RTO,反映了恢复VM所需的时间。

RTO与RPO的区别

为了理解如何确定RTO和RPO,您应该看看它们的区别以及它们在DR过程中的作用。

评价

RTO主要关注的是在灾难期间预计恢复业务运营的时间。需要考虑的要点是:

  • 评估组织的需求和优先级,因为它们对每个组织都是独特的。

  • 考虑哪些应用程序对于服务和对组织生存至关重要的应用程序是最关键的,以及如果这些应用程序失败可能会产生什么影响。

  • 确定每个系统/应用程序应该恢复的顺序,以确保成功地进行灾难恢复,并使停机造成的损失最小。

RPO更关注停机期间可能丢失的数据量,而不会对组织的底线造成任何严重损害。需要考虑的要点是:

  • 确定备份/复制的频率,以及在最近的VM备份和实际灾难之间可能丢失多少数据。
  • 考虑您的组织对于每种类型的工作负载可以损失的数据量。

成本

RTO和RPO的主要区别在于前者考虑了业务结构和DR过程的所有方面,而后者只考虑了数据和应用程序对业务连续性的关键作用。因此,为了确保快速恢复,满足RTO值可能是一项要求很高且代价很高的任务。类似地,拥有较小的RPO意味着您需要执行更多的备份并创建额外的恢复点,这可能会增加存储成本。

自动化

  • 由于RPO关注的是数据和系统对丢失的弹性,因此建议您经常运行数据备份。许多现代备份解决方案允许您执行自动VM备份,这意味着您的备份策略可以以一种有效地满足RPO目标的方式进行裁剪,并且只需您投入最少。
  • 实现RTO是一个更复杂的管理过程,因为它考虑到在DR事件期间需要恢复的所有业务流程和系统组件。也就是说,建议从开始到结束自动化和编排整个DR过程,以确保能够实现您的RTO目标。

易于计算

  • RPO度量很容易计算,因为它只涵盖了恢复过程的一个方面–数据。
  • RTO考虑组织的所有方面,包括数据和服务的重要性、停机时间的成本、DR活动的投资等。在计算RTO时,您应该考虑不同类型的工作负载和应用程序,因为它们可能有不同的恢复过程。最好在业务连续性计划的基础上计算RTO,该计划概述了可能的业务风险和威胁,并描述了恢复业务运营所需采取的步骤。
    若要定义适用于组织中不同工作负载的RTO,请回答以下问题:
    一个特定的应用程序/系统/机器可以关闭多长时间而不会对组织的核心操作产生重大影响?
    针对不同机器回答此问题后,考虑预期结果是否能满足您当前的业务需求。如果没有,请考虑如何改进备份和DR策略,以便尽可能保持备份数据的最新性。
【版权声明】本文为华为云社区用户原创内容,未经允许不得转载,如需转载请自行联系原作者进行授权。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。