Amazon SageMaker Data Wrangler 现已支持随机采样和分层采样。

发布于: Apr 27, 2022

Amazon SageMaker Data Wrangler 可将汇总和准备机器学习（ML）数据所需的时间从数周缩短至几分钟。借助 SageMaker Data Wrangler，您可以简化数据准备和特征工程的过程，并完成数据准备工作流程的每个步骤，包括通过单个可视界面进行数据选择、清理、探查和可视化。借助 SageMaker Data Wrangler 的数据选择工具，您可以从多个数据源中快速选择数据，例如 Simple Storage Service（Amazon S3）、Amazon Athena、Amazon Redshift、AWS Lake Formation、Amazon SageMaker Feature Store、Databricks Delta Lake 和 Snowflake。

今天我们宣布正式推出数据随机采样功能，在从 S3 导入数据时可以进行数据随机采样，并且推出了新转换，可以通过 Amazon SageMaker Studio 中的 Amazon SageMaker Data Wrangler 创建数据集的随机采样或分层采样。以前，在为 ML 应用程序准备数据时，必须编写代码来创建随机采样或分层采样。现在，通过导入的随机采样选项，您现在可以在将数据导入 Data Wrangler 时在 S3 上创建数据的随机采样。此外，借助我们针对随机采样和分层采样的新转换，您可以为数据集创建以下采样类型：

随机采样。如果您的数据集过大而无法准备进行交互，随机采样非常有用。使用随机采样转换，您可以随机采样数据集的一部分，为机器学习做好准备。
分层采样。如果您的数据包含罕见事件（例如欺诈性信用卡交易，其发生率远远低于所有信用卡交易的 1%），并且您希望在采样数据集中保留罕见事件的比例时，分层采样非常有用。
First K 采样。First K 采样使用数据集的前 K 行创建样本，其中 K 是某个数字。例如，如果 K 是1000，那么将创建一个包含数据集前 1000 行的样本。如果您只需要正确的列架构来准备数据，First K 采样非常有用。First K 采样的另一个好处在于，它非常节省时间。

要了解更多有关如何使用 Amazon SageMaker Data Wrangler 对数据采样的信息，请阅读博客。

要开启使用 Amazon SageMaker Data Wrangler 的新功能，您可以在升级到最新版本后打开 Amazon SageMaker Studio，并从菜单中单击 File > New > Flow（文件 > 新建 > 流）或者从 SageMaker Studio 启动程序中单击 new data flow（新数据流）。要详细了解新推出的功能，请参阅文档。

Amazon SageMaker Data Wrangler 现已支持随机采样和分层采样。

终止对 Internet Explorer 的支持