发布于: Oct 21, 2022
今天,我们很高兴地宣布能够通过使用 Amazon SageMaker Data Wrangler 中的参数动态支持存储在 S3 上的不同数据集。Amazon SageMaker Data Wrangler 可将汇总和准备机器学习 (ML) 数据所需的时间从数周缩短至几分钟。借助 Data Wrangler,您可以简化数据准备和特征工程的过程,并完成数据准备工作流的每个步骤,包括通过单个可视界面进行数据选择、清理、探查和可视化。以前,在按计划运行 Data Wrangler 处理作业时,客户没有一种简单的方法来动态引用数据集。客户还缺少一种方法来更轻松地筛选 S3 存储桶中用于处理的文件。最后,在从“创建作业”工作流或 Data Wrangler 处理笔记本运行 Data Wrangler 处理作业时,客户缺少一种更改数据来源的简单方法。
由于支持 Data Wrangler 中的参数化数据集,您可以使用参数指定要通过 Data Wrangler 流处理的数据集。参数是一个变量,您可以将其保存在 Data Wrangler 流中。您可以指定日期-时间参数,以引用特定的日期-时间范围的数据集。使用模式参数,您可以指定 Python 正则表达式以匹配符合特定模式的文件名。字符串或数字参数可用于将文件名与相符的字符串或数值匹配。要访问 Data Wrangler 中的参数,您可以过单击节点“+”菜单并选择“编辑数据集”。突出显示 S3 路径的任何部分即会显示“创建自定义参数”菜单,您可以使用此菜单轻松添加新参数。单击 S3 路径旁的“{{ }}”图标可以访问完整的参数列表。