亚马逊AWS官方博客

宣布为适用于 OpenZFS 的 Amazon FSx 推出按需数据复制功能



今天,我们宣布为适用于 OpenZFS 的 Amazon FSx 新增了一项功能,此功能可以将一个文件系统中的快照发送到您账户中的另一个文件系统。

您可以通过一个 API 调用或 CLI 命令触发复制操作,剩下的由我们来完成。您无需使用 rsync 等命令即可监控传输状态。此服务将代表您执行复制操作。它可以管理潜在的网络中断,并自动尝试重新连接,直到传输完成。它使用 OpenZFS 的原生发送接收功能,以增量方式在块级别传输数据。

例如,这项新功能可以帮助您更快速、更轻松地创建测试和开发环境以保持敏捷性,并简化只读副本的管理工作以提供横向扩展性能,从而提高性能

适用于 OpenZFS 的 Amazon FSx 是一项完全托管式文件存储服务,使您能够启动、运行和扩展基于开源 OpenZFS 文件系统的完全托管式文件系统。借助 FSx for OpenZFS,您可以轻松迁移本地 ZFS 文件服务器,而无需更改应用程序或者改变数据管理方式,还可以在云端构建新的高性能、数据密集型应用程序。

快照是 ZFS 文件系统最强大的功能之一。快照是指一个文件系统或卷的只读副本。快照几乎可以立即创建,最初不会占用存储池中的任何额外磁盘空间。当创建一个快照时,它占用的空间最初是由快照与文件系统共享的,还可能与以前的快照共享。随着文件系统不断变化,以前共享的空间将变成快照的独占空间。随着继续引用旧数据,快照将消耗越来越多的磁盘空间,因此无法释放空间。可以近乎即时地按需回滚快照,即使是在非常大的文件系统上。也可以克隆快照,以形成新的卷。

快照是块级副本。与传统的文件级副本相比,快照的传输效率更高。对于传统的文件级副本,系统有时必须遍历数百万个文件,以检测发生了变化的那些文件。传输增量快照也比传输基于文件的增量副本更高效,因为快照是在块级逐渐增大的。它们只包含自上次拍摄快照以来被修改的数据块。

通过按需复制 ZFS 快照,可以使用 OpenZFS 的原生发送和接收功能传输数 TB 的数据,而不必担心底层基础架构。我们将为您检测和管理网络中断和其他类型的错误,使您能够更轻松地跨文件系统复制数据。

在两种主要使用案例中,您可能需要使用这项新功能。

开发人员和质量保证(QA)工程师可能会向开发和测试环境发送按需快照。使用快照,他们可以处理生产数据,从而确保获得准确的测试和开发结果。通过将最新的快照用作测试工作的一致起点,可以提高开发和测试流程的效率。

数据工程师可以使用按需复制功能对数据集执行并行试验。假设您的应用程序在处理一个大型数据集。您希望对同一个基础数据集运行数据处理算法的多个版本,以找到最适合您的使用案例的优化。使用按需数据复制功能,您可以为文件系统创建多个相同的副本,并并行执行每个试验。

下面我们来看看它的工作原理
为了为此演示做好准备,我使用了 AWS 管理控制台“FSx for OpenZFS”部分。首先,我创建了两个适用于 OpenZFS 的 Amazon FSx 卷。随后,我将两个文件系统(/zfs-filesystem1/zfs-filesystem2安装在一个 Amazon Linux 实例上。我在第一个卷上准备了一个文件,并希望在按需复制之后在第二个卷上找到同一个文件。

ZFS 文件

为了在我的两个卷之间同步数据,我导航到控制台的快照部分。随后,我选择了复制快照并更新卷。我还可以选择将快照复制到一个新的 ZFS 卷。

ZFS 快照复制 – 1

复制快照并更新卷页面上,我选择了目标文件系统。我还确认了源快照。我选择了源快照复制策略:请求完整副本还是请求增量副本。准备就绪之后,我选择了更新

ZFS 快照复制 – 2

等了一会儿(时长取决于要传输的数据量),我观察到目标卷上列出了一个新的快照。在我的演示场景中,只等待了几秒钟时间。

ZFS 快照复制 – 3

我返回到我的 Linux 实例,并列出我的第二个挂载点 /zfs-snapshot 中可用的内容。我很高兴在第二个文件系统上看到了我的 ASCII 奶牛图标 🎉🐮。

从快照还原的那个卷上也具有同一个 ZFS 文件

此外,我还可以使用新推出的 FSx API(CopySnapshotAndUpdateVolumeCopySnapshotAndCreateVolume),自动执行按需传输。

为了设置持续定期复制,我使用所提供的 CloudFormation 模板创建了一项自动复制计划。部署之后,系统会定期在源文件系统上拍摄卷的快照,并向目标文件系统上的卷执行增量复制。例如,出于测试目的,我可以安排每 15 分钟对开发文件系统执行一次复制。

定价和可用性
这项新功能现已在提供 FSx for OpenZFS 的所有 AWS 区域中提供。

它不收取任何额外费用。AWS 对可用区之间的网络数据传输收取常规费用。

对于远程文件系统使用的存储量,您需要支付 FSx for OpenZFS 的标准费用。

使用为适用于 OpenZFS 的 Amazon FSx 新推出的按需复制功能,您可以高效地将增量文件系统快照传输到您账户中的一个新卷。使用此功能,开发人员和 QA 工程师可以处理生产数据的副本,数据工程师可以对数据集执行并行试验。

现在立即开始构建和配置您的第一个按需复制操作

– seb