发布于: Aug 27, 2019

Amazon SageMaker 现在支持将 Amazon Elastic File System (Amazon EFS) 和 Amazon FSx for Lustre 文件系统作为在 SageMaker 上训练机器学习模型的数据源。Amazon FSx for Lustre 是一种高性能文件系统,其针对机器学习、分析和高性能计算等工作负载进行了优化。Amazon EFS 为基于 Linux 的工作负载提供简单、可扩展的弹性文件系统,可与 AWS 云服务和本地资源配合使用。对这些文件系统的支持加快并简化了使用 Amazon SageMaker 训练具有数据集的模型。文件系统数据源通过消除培训过程的数据下载步骤并利用文件系统的各种性能和吞吐量优势,更快地执行训练作业,从而减少启动时间。

至今,使用文件输入模式时,Amazon SageMaker 在训练作业开始时以透明的方式将完整的训练集从 Amazon S3 下载到本地文件存储器。现在,借助 Amazon FSx for Lustre,客户可以免去最初的 Amazon S3 下载时间来加快其文件模式训练作业。当 Amazon FSx for Lustre 文件系统链接到 Amazon S3 存储桶时,它会在第一次访问对象时自动将对象从 Amazon S3 复制到文件系统。同一个 FSx 文件系统还可用于多项 SageMaker 作业,以防重复下载公用对象。

此外,直至今日,客户只能将 Amazon SageMaker 与存储在 Amazon S3 上的训练集一起使用。现在,客户还可以使用存储在 Amazon EFS 上的训练集。Amazon SageMaker 直接与 Amazon EFS 进行交互,无需将数据集从 Amazon EFS 复制到 Amazon S3以与 Amazon SageMaker 一起使用。

大多数 Amazon SageMaker 内置机器学习算法支持将 EFS 和 FSx for Lustre 作为输入数据源。各自文件系统可用的所有区域均提供这一功能。有关区域可用性的详细信息,请查看 AWS 区域表

请访问文档获取更多信息,并阅读博客文章了解如何使用该功能。