发布于: Oct 7, 2021

Amazon SageMaker 现在支持使用快速文件模式访问训练任务中的数据。此功能通过直接从 Amazon S3 流式传输实现高性能数据访问,无需更改现有文件模式的代码。例如,在 100GB 数据集上训练 K-Means 集群模型在文件模式下需要 28 分钟,而在快速文件模式下只需要 5 分钟(减少了 82%)。

训练机器学习模型通常需要大量数据。高效访问该数据有助于提高模型训练性能。到目前为止,SageMaker 提供了两种直接从 Amazon S3 读取数据的模式:文件模式和管道模式。文件模式将训练数据下载到附加到训练实例的加密 Amazon EBS 卷。此下载活动需要在模型训练开始之前完成。管道模式将数据直接流式传输到训练算法,这可以提高性能,但需要更改代码。

快速文件模式兼具现有文件模式的易用性和管道模式的性能。该模式使用户可以便捷地访问数据(如同数据是在本地下载的),同时提供了直接从 Amazon S3 流式传输数据的性能优势。因此,无需等待整个数据集下载到训练实例即可开始训练。快速文件模式无需额外费用即可使用。

要了解详情,请查看有关在 SageMaker 中访问训练数据的文档。要开始使用,请登录 Amazon SageMaker 控制台