亚马逊AWS官方博客

运用 Amazon Backup 备份策略实现云端的弹性容灾与数据合规

背景介绍

在数字化时代,数据已成为组织运行的核心,担当着推动决策、稳固业务流程和提升客户服务的重要角色。由此,数据丢失或损坏可能导致严重的业务中断、客户信任度下降、财务损失,并触发合规问题。面对来自网络攻击、硬件故障和人为失误等多元化的威胁,精细设计并执行数据备份和灾难恢复(DR)策略成为维护数据安全和业务连续性的核心举措。其中,数据备份确保在发生数据损害时有可靠副本可供恢复;而 DR 计划助力在危机时刻最小化业务中断,并加速运营恢复。
这两者结合,构建出一道维护数据和运营安全的防护墙,稳固客户信任和财务基础。当考虑合规审计时,数据备份保证组织能呈现完整、精准的数据用于应对审计校验,展示其在数据管理和保护上的责任和透明度,同时在快速、准确检索和提供数据的能力上印证了组织对数据保护和合规性的严肃看待和切实执行。

本文将为您介绍如何在优化成本的同时,通过使用 Amazon 的数据备份服务实现高级别的容灾备份,快速数据恢复,同时满足合规审计的长期数据备份需求。

数据备份与恢复概述

什么是 Amazon Backup?

Amazon Backup 是亚马逊提供的一项云备份服务,旨在帮助客户中央化地管理在 Amazon Web Services 平台上的数据备份。通过一个统一的、易于使用的用户界面和 API,用户能够配置和审计跨 Amazon 云服务的备份策略和活动。Amazon Backup 提供了一个可伸缩、安全且经济高效的解决方案,允许用户自定义备份策略,比如设置备份频率和保留期。它可以协助组织符合合规要求,并支持在业务中断时快速恢复数据,以维持业务连续性和降低运营风险。

Amazon backup 有两个 key features:

1. Cross Amazon services centralized backup management:跨 Amazon 服务的集中备份管理是一个综合性解决方案,旨在为多个 Amazon 服务提供统一的数据保护策略和监控。它允许用户集中编排、自动化备份任务,并在一个统一的控制台中管理所有的备份和恢复活动。这不仅简化了备份流程,还确保了数据的完整性和安全性,同时为满足不同业务和合规性需求提供了高度的灵活性和可扩展性。

2. AWS Backup Vault Lock:AWS Backup Vault Lock 是一项用于增强数据安全性的功能,它提供不可变性保护,确保备份数据免受删除或更改。这个功能允许用户设置一个固定的保留期限,在这个期限内备份数据不能被更改或删除,即使是管理员也不能操作。这种保护符合监管合规性要求,非常适合需要长期保留关键数据的场景。通过使用 Vault Lock,组织可以确保其备份数据在设定的保留期限内免遭篡改或误操作,从而提高其整体的数据安全性和可靠性。

深入探讨 Amazon Backup

在备份数据时,客户往往希望可以长时间保留数据,快速恢复,又可以在支持高级别容灾水平的同时,尽量的降低成本,如何在这些需求之间进行平衡,面临着巨大的挑战,接下来将为您介绍 Amazon Backup 的几个核心概念,帮助您了解如何通过设计备份策略来帮助客户解决这些挑战。

备份策略和过期策略

在 Amazon Backup 设计备份计划时,支持配置备份策略以及过期策略。备份策略定义了数据备份的频率和开始时间,确保数据的持续性和减少手动错误。过期策略则确定备份的保留时长,规定了何时删除或转移备份。这两个策略共同帮助用户自动化备份流程、节省存储成本、满足法规和合规性要求,同时确保数据的可用性和完整性。

Amazon Backup 支持的备份策略和过期策略:

备份策略(Backup Schedule):

    • 每天、每周、每月或每年备份。
    • 在特定的时间点开始备份。

过期策略(Expire Schedule):

    • 指定备份的保留期限,例如 30天、60 天、1 年等。
    • 根据需要,可以为每个备份设置不同的过期时间。

region 备份和跨 region 备份

Amazon Backup 支持同 region 备份和跨 region 备份,同 region 备份是指在同一 Amazon 区域内创建和存储的备份,用于快速恢复和本地数据保护。而跨 region 备份是将备份从一个 Amazon 区域复制到另一个区域,为数据提供地理冗余,从而增强灾难恢复能力。

特点 region 备份 region 备份
优点

1. 快速数据恢复。

2. 通常费用较低。

3. 简化数据管理和恢复流程。

1. 提供地理冗余,增强灾难恢复能力。

2. 在主要区域故障时确保数据可用性。

3. 满足特定地域的合规和法规要求。

缺点

1. 缺少地理冗余。

2. 如果整个区域受到影响,数据可能面临风险。

3. 不满足某些地域的数据持久性要求。

1. 数据恢复可能稍慢。

2. 跨区域传输和存储费用可能较高。

3. 需要更复杂的数据管理和恢复策略。

什么是 Amazon Backup 增量备份?

Amazon Backup 以增量方式高效存储定期备份。Amazon 资源的第一次备份会备份数据的完整副本。对于每次连续的增量备份,仅备份对 Amazon 资源的更改,并且仅针对增量备份的部分进行收费。增量备份使您能够从频繁备份的数据保护中受益,同时最大限度地降低存储成本(冷存储的备份是完整备份)。通过每一个增量备份进行数据恢复时,都可以得到增量备份对应时间的完整的数据。

例如,在下图中,如果您归档快照 B,快照将转换为大小为 10GiB 的完整快照并移动到归档层。同样,如果您归档快照 C,归档层中的完整快照大小为 14GiB。

实验场景

本实验根据比较常见的用户备份和恢复需求给出参考配置方案,需要满足:

  • 按天进行数据备份,并可以通过数据备份快速恢复到前一天的数据。
  • 希望支持跨 Region 的数据备份和数据恢复,实现高等级的容灾。
  • 为了满足合规要求,数据需要保存 5 年,用于合规审计要求。

接下来,以一个具体的场景通过数据和图表进行对比说明。假设数据初始数据量为 10G,增量数据为 0,每天改动大约在 10%,计算第一年的原始方案和优化方案的成本对比,这里以 EC2 的备份为例进行说明,价格参考 Amazon 的官方报价。

为了方便大家的理解,这里选择客户通常使用的方案做为原始方案,本实验中的方案做为优化方案:

  • 原始方案:客户通常采用的方案为按照天进行同 region 和跨 region 的备份,这里将其做为原始方案。
  • 本方案中的方案,按照每天,每周,每年的频率进行备份,和不同的频率进行删除的方案,做为优化后的方案。

动手实验

1 创建备份计划

本实验创建的备份计划,基于 Amazon Backup 服务默认的备份计划模版进行自定义调整,选择创建备份计划,从模版开始,模版选择 Daily-Weekly-Monthly-5yr-Retention。

2 设置备份规则

选中备份规则,进行编辑,以 DailyBackups 为例进行说明,如下图所示:

备份规则明细如下:

备份规则名称 备份频率 保留期 执行起点 Region
DailyBackups 每日 1 个月 第 1 个月的第 1 天 中国(北京)
WeeklyBackups 每周 2 个月 第 1 个月的第 1 周的周日 中国(北京),中国(宁夏)
MonthlyBackups 每月 5 年 第 2 个月的第 1 天 中国(北京),中国(宁夏)

3 方案结果数据对比

接下来将通过成本,恢复时间,以及综合效果几个纬度进行原始方案和优化方案的对比。

成本对比:

采用优化后的方案,成本上和原始方案对比有了明显的节省,原始方案的成本为 1349.166 元,优化方案的成本为 612.866 元,优化方案对比原始方案成本可以节省大约 55%。成本数据会因客户负载不同,有所差异。

  • 原始方案成本数据如下:

年度总计大约在 1349.166 元人民币,其中北京 region 和宁夏 region 均为增量备份,价格差异是因为备份费率不同。

如下图所示为原始方案产生的成本,蓝色的柱形为北京 region 产生的备份费用,橙色柱形为宁夏 region 产生的备份费用。

  • 优化方案的成本数据如下:

年度总计大约在 612.866 元人民币,对比原始方案,发现北京和宁夏 region 的备份费用都有了明显的降低。

经过优化后的方案,如下图所示,在保证快速恢复的同时,可以支持跨 region 的容灾能力,并且通过粗粒度的按月保存,可以很好的满足长期的合规审计的需求,同时极大的降低了成本。

恢复时间对比:

本实验采用三种方法对数据备份的恢复点进行数据恢复,并对比恢复时间。

方法一:直接通过本 region 即北京的按天或者按周的数据恢复点在北京 region 进行备份数据恢复,时间大约为 1 到 2 分钟。

方法二:通过跨 region 即宁夏的按天或者按周的数据恢复点直接在宁夏 region 进行备份数据恢复,时间大约为 2 分钟。

方法三:通过跨 region 即宁夏产生的数据恢复点执行复制将数据复制到北京 region 的备份保管库,时间大约为 9 分钟,之后再通过该恢复点进行恢复,时间大约为 1 分钟,总共时间约为 10 分钟。

由此,看出本实验中原始方案和优化方案在恢复时间上,基本是相同的。真实场景中,由于增量数据对数据备份总量的影响,跨 region 的恢复时间会更长。由于业务负载不同,数据恢复点恢复和复制的时间也会存在差异。

综合考虑数据高度容灾和业务连续性,可以考虑在跨 region 预留足够的资源 capacity,从而当本 region 发生了 region 级别灾难时,可以快速的通过在跨 region 生成的数据恢复点直接进行数据恢复拉起服务所需的资源。

综合分析:

如下图所示,对优化方案在第三个月的数据备份进行了进一步的分析,数字代表数据产生的月份,1 代表数据是第一个月产生的,2 代表数据是第二个月产生的,3 代表数据是第三个月产生的。

如上表格所示,采用优化方案的备份策略,通过按天,按周和按月备份和删除结合的方法,从第 3 个月开始,客户环境同时有同 region 每天备份的第 3 个月数据,以及本 region 和跨 region 的按周备份的第 2 个月和第 3 个月的数据,同时还有同 region 和跨 region 的第 1 个月和第 2 个月的数据,因此结合开始的业务场景,优化方案带来了如下优点:

  • 快速恢复:因为同时具备了第 1,第 2 和第 3 个月的数据,而且时间点上的覆盖,可以实现同 region 快速恢复到前一天的数据。
  • 容灾:假设发生了 Region 级别的灾难,数据丢失最多不超过1周,而且可以通过调整按月和按周备份的时间点,进一步缩小该时间范围。
  • 成本方面:通过采用按天,按周,按年相结合进行数据备份和删除的策略,降低了数据备份的数目,通过将细粒度的备份降低保存时间,结合粗粒度的数据备份,从而降低了整体成本。
  • 合规方面:通过采用按月备份的策略,在控制成本的同时,很好的满足了合规对于长时间数据保存的需求。

4 结合监控服务自动收集 Backup 的运行状态和告警

为了更加全面的了解 Amazon Backup 服务的工作状态,防止异常情况发生影响服务的备份和恢复,可以将 Amazon Backup- 服务,Amazon CloudWatch,Amazon SNS 相结合收集相关的备份和恢复指标并自动发送告警到指定的邮箱,可以搜集的指标具体可以参考 Amazon Backup 官方文档获取更多的信息,也可以根据需要将告警发送到钉钉或者微信,操作步骤可以参考 Amazon CloudWatch 收集和发送告警的博客。

总结和结论

使用 Amazon Backup 服务按天、周和月的结合的策略进行数据备份和恢复,不仅可以增强数据保护和业务连续性,还能满足合规要求。以下是这种方法的好处和意义:
数据保护和恢复能力:

  • 减少数据丢失:频繁的备份(如每日备份)减少了数据丢失的风险,因为您总是拥有最近的数据副本。
  • 灵活的恢复点:通过按天、周和月备份,您可以从多个时间点恢复数据,提供灵活性以应对不同类型的数据丢失事件。

业务连续性和灾难恢复:

  • 减少停机时间:快速、可靠的数据恢复确保业务连续性,最小化因数据丢失或腐败导致的停机时间。
  • 灾难恢复:在不同的地理位置存储备份副本可以保护您免受区域性灾难的影响。

成本效益和资源管理:

  • 存储优化:通过保留最近的备份和定期的全备份,您可以优化存储使用,节省成本。
  • 自动化:自动化的备份流程减少了人工错误的可能性,并节省了资源。

合规性和审计:

  • 满足法规要求:许多行业和地区都有数据保留和保护的法规要求;定期备份有助于满足这些要求。
  • 审计和报告:备份日志和报告可以帮助审计过程,并证明合规性。

本篇作者

吴楠

AWS 解决方案架构师,负责面向跨国企业客户的云计算方案架构咨询和设计,客户覆盖医疗,零售等行业。

黎志煊

AWS 存储架构师,致力于推广存储技术在云上的各种最佳实践。主要负责存储的云端设计、改造和优化方案、迁移与备份方案。有多年存储、云计算经验。