发布于: May 7, 2021
Amazon SageMaker Data Wrangler 可将汇总和准备机器学习 (ML) 数据所需的时间从数周缩短至几分钟。借助 SageMaker Data Wrangler,您可以简化数据准备和功能工程的过程,并完成数据准备工作流程的每个步骤,包括通过单个可视界面进行数据选择、清理、探查和可视化。即日起,您可以使用 Amazon SageMaker Data Wrangler 的新功能,该功能可用于更轻松更快地为机器学习准备数据,包括:Amazon S3 的跨账户访问、最多支持 1000 列数据、分布式作业和新的 SageMaker Data Wrangler 笔记本体验。
随着 Amazon S3 跨账户访问的推出,您可以从您有权访问的任何 S3 存储桶中导入数据,并轻松浏览 S3 存储桶中的数据,而不管它们位于哪个账户。一旦导航到 S3 存储桶,您就可以交互式地浏览 S3 存储桶的内容,并通过单击将其导入 Amazon SageMaker Data Wrangler。此外,很多机器学习应用程序需要准备数百列的数据集。通过推出对 1000 列数据集的支持,您可以轻松地为机器学习应用程序准备数据。使用分布式作业,您现在可以在多个实例上扩展数据处理工作负载,以处理几乎任意大小的数据。现在,您可以为 ml.m5.4xlarge、ml.m5.12xlarge 和 ml.m5.24xlarge 实例类型指定超过 1 的实例数,以便轻松扩展数据处理工作负载。最后,SageMaker Data Wrangler 的新笔记本体验会使作业笔记本更易于使用。笔记本已经过重新组织以方便配置,并且提供了文档,使您可以更快地开始。