发布于: May 24, 2018

现在,利用内置的 Amazon SageMaker 算法使用管道输入模式运行训练任务,速度最高可提升 35%。利用管道输入模式,您的训练任务会直接将数据从 Amazon Simple Storage Service (Amazon S3) 流式传输到训练实例上的算法容器,从而缩短训练作业的启动时间并提高吞吐量。例如,基准测试表明,78GB 文件的启动时间最多可缩短 10 分钟,部分基准测试中的吞吐量增加了一倍。

如果您使用经过优化的 protobuf recordIO 训练数据格式来提升速度,那么大多数 Amazon SageMaker 算法都可以达到最佳效果。利用这种格式,您可以在训练支持该格式的算法时使用管道输入模式。在使用管道输入模式之前,您的所有数据都会从 Amazon S3 加载到训练实例附加的使用文件输入模式的 Amazon Elastic Block Store (Amazon EBS) 卷。文件输入模式需要利用磁盘空间来存储您的最终模型构件和完整的训练数据集。如果算法需要多个纪元,且训练数据集小到内存完全可以容纳,则文件输入模式仍是首选项。但如果数据集较大,那么管道输入模式效果更好。

即日起,Amazon SageMaker 中的管道输入模式面向以下 AWS 区域提供:美国东部(弗吉尼亚北部)、美国东部(俄亥俄)、欧洲(爱尔兰)和美国西部(俄勒冈)。如需详细了解管道输入模式以及支持该模式的 Amazon SageMaker 算法,请访问文档;阅读我们的博客文章,了解如何使用管道输入模式,并查看管道输入模式与文件输入模式的基准对比情况。