发布于: Jun 9, 2022

今天,我们宣布正式推出通过 Amazon SageMaker Data Wrangler 将数据拆分到训练和测试集的功能。Amazon SageMaker Data Wrangler 可将汇总和准备机器学习 (ML) 数据所需的时间从数周缩短至几分钟。借助 SageMaker Data Wrangler,您可以简化数据准备和特征工程的过程,并完成数据准备工作流程的每个步骤,包括通过单个可视界面进行数据选择、清理、探查和可视化。借助 SageMaker Data Wrangler 的数据选择工具,您可以从多个数据来源中快速选择数据,例如 Amazon S3、Amazon Athena、Amazon Redshift、AWS Lake Formation、Snowflake 和 Databricks Delta Lake。

即日起,使用 Data Wrangler 只需点击几下即可将数据拆分到训练和测试集。以前,在训练机器学习模型之前,数据科学家必须编写代码才能将其数据拆分到训练和测试集。利用 SageMaker Data Wrangler 的新训练-测试拆分转换,您可以将数据拆分到训练、测试和验证集,以用于下游模型训练和验证。此外,SageMaker Data Wrangler 还可以提供多种拆分类型,包括随机化的、排序的、分层的以及基于密钥的拆分,以及指定每个拆分中的数据量的选项。例如,如果您在训练集和测试集中创建随机数据拆分,则可以根据训练集训练机器学习模型,然后根据测试集评估机器学习模型。在训练过程中根据看到的数据评估模型可能会有偏差,因此,在训练之前先设置测试数据非常重要。因此,根据测试集评估模型准确性可以提供对模型性能的真实评估。

要开始使用 Amazon SageMaker Data Wrangler 的新功能,请升级到最新版本,然后在菜单中单击 File > New > Flow(文件 > 新建 > 流)或者从 SageMaker Studio 启动程序中单击“new data flow”(新建数据流)。要详细了解新推出的功能,请阅读博客并查看文档