发布于: Oct 14, 2021

Amazon SageMaker Data Wrangler 可将汇总和准备机器学习(ML)数据所需的时间从数周缩短至几分钟。借助 SageMaker Data Wrangler,您可以简化数据准备和特征工程的过程,并完成数据准备工作流程的每个步骤,包括通过单个可视界面进行数据选择、清理、探查和可视化。

自即日起,您可以使用工作组在 Amazon Athena 上查询数据、启用数据集的多密钥联接、可视化相关性和重复行,并在导出数据流时提供客户托管式密钥,从而更轻松、更快速地为机器学习(ML)准备数据。以下是这些功能的详细说明:

  • 对 Athena 工作组的支持。 Amazon Athena 工作组 这一资源类型可用于分隔同一 AWS 账户下运行的用户、团队或应用程序之间的查询执行和查询历史记录。自即日起,您现在可以使用您选择的工作组从 SageMaker Data Wrangler 使用 Athena 查询数据。
  • 两种新的可视化功能来帮助做好数据准备:
    • 借助 SageMaker Data Wrangler 的功能相关性可视化您可以轻松计算数据集中功能的相关性,并将其可视化为相关矩阵。
    • 使用新的重复行检测可视化功能,您可以快速检测数据集是否有任何重复行。
  • 多密钥连接。 您现在可以在将 SageMaker Data Wrangler 中的两个数据集连接在一起时指定多个列,并删除 SageMaker Data Wrangler 流内部的中间步骤。
  • 支持使用 Amazon Key Management Service(KMS)的客户托管式密钥(CMK)。自即日起,除了从 SageMaker Data Wrangler 中导出的笔记本之外,您现在还可以在使用“导出到 S3”功能时指定 KMS 密钥。

要开启使用 Amazon SageMaker Data Wrangler 的新功能,您可以在升级到最新版本后打开 Amazon SageMaker Studio 并从菜单中单击 File > New > Flow(文件 > 新建 > 流)或者从 SageMaker Studio 启动程序中单击“new data flow”(新数据流)。如需了解有关新功能的详情,请查看文档。