发布于: Jan 28, 2022
Amazon SageMaker Autopilot 可根据您的数据自动构建、训练和调整最佳机器学习模型,同时允许您保持完全控制和可见性。即日起,SageMaker Autopilot 将提供对 Apache Parquet 文件格式的支持。Apache Parquet 是一种免费和开源的面向列的数据存储格式,适用于 Apache Hadoop 生态系统。它提供了具有增强性能的高效数据压缩和编码方案。这项新功能允许使用以 Apache Parquet 文件格式存储的文件创建 SageMaker Autopilot 实验。
使用此版本创建 Autopilot 实验时,您可以为指向单个 parquet 文件或包含元数据并引用多个 parquet 文件的清单文件的输入 parquet 数据指定 Amazon S3 位置。对于输入位置或清单中的每个 Parquet 文件,Autopilot 最多可以接受 2 GB 的压缩数据。您可以通过在 AWS Support Center 控制台中提交服务限制增加请求,以提高压缩 parquet 格式文件的 2 GB 服务限制原定设置值。当您指定包含多个 parquet 文件的 Amazon S3 文件夹或清单文件作为输入时,将对每个 parquet 文件分别实施原定设置的 2 GB 限制。此版本还包括对处理大型 parquet 数据集的支持。SageMaker Autopilot 将自动对存储在 parquet 文件中的未压缩数据进行二次抽样,以适应支持的最大限制,同时考虑类不平衡并保留罕见的类标签。
所有提供 SageMaker Autopilot 的 AWS 区域都支持 Parquet 文件格式。有关更多信息,请参阅 Amazon SageMaker Autopilot 开发人员指南中的数据和问题类型及配额主题,以及 AutoMLChannel API 参考中的ContentType。如需深入了解,请查看我们的博客文章和提供此功能发布预览的示例笔记本。要开始使用 SageMaker Autopilot,请参阅开始使用或在 SageMaker Studio 中访问 Autopilot。