亚马逊AWS官方博客

新增功能 — 适用于 Lustre 的 Amazon FSx 的文件发布

适用于 Lustre 的 Amazon FSx 提供完全托管的共享存储,具有开源 Lustre 文件系统的可扩展性和高性能,可支持基于 Linux 的工作负载。适用于 Lustre 的 FSx 适合注重存储速度和吞吐量的工作负载。这是因为适用于 Lustre 的 FSx 可帮助您避免存储瓶颈,提高计算资源的利用率,并缩短各种工作负载(包括人工智能(AI)和机器学习(ML)、高性能计算(HPC)、财务建模和媒体处理)的价值实现时间。适用于 Lustre 的 FSx 与 Amazon Simple Storage Service(Amazon S3)原生集成,通过自动导入和导出同步双向更改,使您可以根据需要通过符合 POSIX 标准的高性能文件系统访问 Amazon S3 数据湖。

今天,我很高兴地宣布适用于 Lustre 的 FSx 推出文件发布功能。此功能通过发布已与 Amazon S3 同步的文件数据来帮助您管理数据生命周期。文件发布可以释放存储空间,这样您就可以继续向文件系统写入新数据,同时通过 Amazon S3 中适用于 Lustre 的 FSx 延迟加载保留对已发布文件的按需访问。您可以指定要释放存储空间的目录,也可以指定自上次访问以来的最短时间,以便仅释放指定目录中的数据,以及自上次访问以来的最短时间(如果已指定)。文件发布通过将使用不频繁的文件数据移动到 S3 来帮助您进行数据生命周期管理,从而使您能够利用 S3 分层。

文件发布任务可以使用 AWS 管理控制台启动,也可以使用 AWS CLI、AWS SDK 或 Amazon EventBridge 调度器进行 API 调用,以安排定期发布任务。如果需要,您可以选择在发布任务结束时接收完成情况报告。

启动发布任务
让我们以如何使用控制台启动发布任务为例。为了指定要发布的文件的标准(例如,目录或自上次访问以来的时间),我们定义了发布数据存储库任务(DRT)。DRT 会释放所有与 Amazon S3 同步且符合指定标准的文件。值得注意的是,发布 DRT 是按顺序处理的。这意味着,如果您在另一个 DRT(例如导入或导出)进行时提交发布 DRT,则发布 DRT 将排队,直到导入或导出 DRT 完成后才会处理。

注意:要使数据存储库关联生效,必须禁用文件系统的自动备份(使用“备份”选项卡执行此操作)。其次,确保文件系统和关联的 S3 存储桶位于同一 AWS 区域。

我已经有适用于 Lustre 的 FSx 文件系统 my-fsx-test。

创建了一个数据存储库关联,即文件系统上的目录与 S3 存储桶或前缀之间的关联。

我指定要与文件系统关联的 S3 存储桶的名称或 S3 前缀。

创建数据存储库关联后,我选择创建发布任务

该发布任务将根据您的特定条件发布您想要发布的目录或文件(同样,务必记住,这些文件或目录必须与 S3 存储桶同步才能使发布生效)。如果您为发布指定了自上次访问依赖的最短时间(除了目录之外),则最近未访问过的文件将被释放。

在本示例中,我选择了禁用完成情况报告。但是,如果您选择启用完成报告,则发布任务将在结束时生成报告。

仍可使用现有适用于 Lustre 的 FSx 功能访问已发布的文件,以便根据需要自动将数据从 Amazon S3 检索回文件系统。这是因为,尽管它们的元数据已发布,但仍保留在文件系统中。

文件发布不会自动阻止您的文件系统变满。在运行下一个发布任务之前,请务必确保写入的数据量不超过可用存储容量。

现已推出
适用于 Lustre 的 FSx 上的文件发布现已在所有支持适用于 Lustre 的 FSx 的 AWS 区域推出,适用于所有运行 Lustre 版本 2.12 或更高版本且与 S3 关联的全新或现有文件系统。使用适用于 Lustre 的 FSx 上的文件发布功能无需支付额外费用。但是,如果您稍后从文件系统再次访问发布的文件,则在将这些文件读回文件系统时,将产生正常的 Amazon S3 请求和数据检索费用(如适用)。

要了解更多信息,请访问适用于 Lustre 的 Amazon FSx 页面,并请向适用于 Lustre 的 Amazon FSx 的 AWS re:Post 或通过您熟悉的 AWS Support 联系人发送反馈。

Veliswa