亚马逊AWS官方博客

利用 Amazon EFS Archive 优化极少访问的文件的存储成本



今天,我们推出了 EFS Archive,这是 Amazon Elastic File System(Amazon EFS)的一个新存储类,针对很少访问的长期数据进行了优化。

随着此次发布,Amazon EFS 现已支持三种区域存储类:

  • EFS Standard – 由 SSD 存储提供支持,旨在为活动数据提供亚毫秒级延迟。
  • EFS Infrequent Access(EFS IA)– 针对每季度仅访问几次的数据进行了成本优化,并且不需要 EFS Standard 的亚毫秒级延迟。
  • EFS Archive – 针对每年访问几次或更少的长期数据进行了成本优化,并提供了与 EFS IA 类似的性能。

所有区域存储类均提供每秒千兆字节的吞吐量和数十万的 IOPS 性能,旨在实现 11 个 9 的持久性。

您无需为文件系统手动选择存储类,因为 EFS 生命周期管理可以根据存储类的访问模式自动跨存储类迁移文件。这让您可以拥有一个共享文件系统,其中包含以截然不同的方式处理的文件:从对延迟敏感的活动数据到很少访问的冷数据。

许多数据集都有数据子集,这些数据子集对生成见解很有价值,但并不经常使用。借助 EFS Archive,您可以经济高效地存储很少访问的数据,同时将其与其他数据保存在同一个共享文件系统中。这种简化的存储方法允许最终用户和应用程序在一个位置协作处理大型共享数据集,从而更加轻松、快速地设置和扩展分析工作负载。

通过 EFS Archive,您可以优化基于大型文件数据集的工作负载成本,这些数据集包含活动数据和非活动数据,如用户共享、机器学习(ML)训练数据集、SaaS 应用程序以及为实现监管合规而保留的数据,如金融交易和医疗记录。

我们来看看该功能的实际应用。

使用 EFS Archive 存储
要使用新的 EFS Archive 存储类,我需要为文件系统配置生命周期管理。在 Amazon EFS 控制台中,我选择一个文件系统,然后选择编辑。要使用 EFS Archive 存储,文件系统吞吐量模式必须为 Elastic。 对于大多数工作负载,Elastic Throughput 是推荐选择,因为它旨在通过按使用量付费的定价方式为应用程序提供所需的吞吐量。

控制台屏幕截图。

现在,我要配置生命周期管理,根据工作负载的访问模式将文件转换到 EFS IA 或 EFS Archive。

控制台屏幕截图。

我的工作负载很少使用超过一个月的文件。正常活动不会使用超过一个季度的文件,但需要保留更长时间。基于这些考虑,我选择在自上次访问起 30 天后自动将文件转换到 EFS IA,在 90 天后自动将文件转换到 EFS Archive。这些是新文件系统的默认设置。

当一个旧文件被访问时,这通常指示文件正在新分析中使用,所以文件会再次活动一段时间。出于这个原因,我使用该选项在文件首次访问 IA 或 Archive 存储时将其转换回 Standard 存储。

我保存了更改,就是这么简单! 现在,这个文件系统会根据我的应用程序处理文件的方式,自动使用不同的存储类。

注意事项
EFS Archive 现已在提供 Amazon EFS 的所有 AWS 区域推出(不包括中国区域)。

为了给很少访问的冷文件提供成本更优化的体验,EFS Archive 的存储成本比 EFS IA 低 50%,但数据访问时的请求费用却高出三倍。有关更多信息,请参阅 Amazon EFS 定价

通过配置文件系统生命周期策略,您可以将 EFS Archive 与现有文件系统结合使用。默认情况下,新文件系统是使用生命周期策略创建的,该策略会在 30 天后自动将文件转换到 EFS IA,并在自上次访问起 90 天后自动将文件转换到 EFS Archive。

为 Amazon EFS 文件系统配置生命周期管理,优化存储成本。

Danilo