通过 Amazon SageMaker Data Wrangler 只需点击几下即可将数据拆分到训练和测试集

发布于: Jun 9, 2022

今天，我们宣布正式推出通过 Amazon SageMaker Data Wrangler 将数据拆分到训练和测试集的功能。Amazon SageMaker Data Wrangler 可将汇总和准备机器学习 (ML) 数据所需的时间从数周缩短至几分钟。借助 SageMaker Data Wrangler，您可以简化数据准备和特征工程的过程，并完成数据准备工作流程的每个步骤，包括通过单个可视界面进行数据选择、清理、探查和可视化。借助 SageMaker Data Wrangler 的数据选择工具，您可以从多个数据来源中快速选择数据，例如 Amazon S3、Amazon Athena、Amazon Redshift、AWS Lake Formation、Snowflake 和 Databricks Delta Lake。

即日起，使用 Data Wrangler 只需点击几下即可将数据拆分到训练和测试集。以前，在训练机器学习模型之前，数据科学家必须编写代码才能将其数据拆分到训练和测试集。利用 SageMaker Data Wrangler 的新训练-测试拆分转换，您可以将数据拆分到训练、测试和验证集，以用于下游模型训练和验证。此外，SageMaker Data Wrangler 还可以提供多种拆分类型，包括随机化的、排序的、分层的以及基于密钥的拆分，以及指定每个拆分中的数据量的选项。例如，如果您在训练集和测试集中创建随机数据拆分，则可以根据训练集训练机器学习模型，然后根据测试集评估机器学习模型。在训练过程中根据看到的数据评估模型可能会有偏差，因此，在训练之前先设置测试数据非常重要。因此，根据测试集评估模型准确性可以提供对模型性能的真实评估。

要开始使用 Amazon SageMaker Data Wrangler 的新功能，请升级到最新版本，然后在菜单中单击 File > New > Flow（文件 > 新建 > 流）或者从 SageMaker Studio 启动程序中单击“new data flow”（新建数据流）。要详细了解新推出的功能，请阅读博客并查看文档。

通过 Amazon SageMaker Data Wrangler 只需点击几下即可将数据拆分到训练和测试集

终止对 Internet Explorer 的支持