发布于: Nov 5, 2018

Amazon SageMaker 自带的内置算法现在支持 CSV 格式数据集的管道模式。这不仅可以将数据从 Amazon Simple Storage Service (S3) 流式传输到 SageMaker 的速度提高多达 40%,还能训练机器学习 (ML) 模型。借助这项新的增强功能,除了我们今年早些时候发布的 protobuf recordIO 格式外,管道模式的性能优势还已扩展到 CSV 格式的训练数据集。

Amazon SageMaker 支持传输训练数据的以下两种方式:文件模式和管道模式。使用文件模式时,首先将训练数据下载到一个附加到训练实例的加密 EBS 卷,再训练模型。使用管道模式时,数据可在运行时直接流式传输到训练算法中。这可以加快训练作业的执行速度,减少磁盘空间使用,从而降低在 Amazon SageMaker 上训练机器学习模型所需的总体成本。

现已提供 Amazon SageMaker 的所有 AWS 区域中,均支持采用管道模式的 CSV 格式数据集。 您可以在这篇博客文章中阅读更多详细信息。