发布于: Dec 8, 2022

Amazon SageMaker Data Wrangler 可在 Amazon SageMaker Studio 中将汇总和准备机器学习 (ML) 数据所需的时间从数周缩短至几分钟。借助 SageMaker Data Wrangler,您可以简化数据准备和特征工程的过程,并完成数据准备工作流的每个步骤,包括通过单个可视界面进行数据选择、清理、探查和可视化。 即日起,您可以连接到 Amazon EMR Presto 并将其作为大型查询引擎,从而引入超大型数据集,并通过 Data Wrangler 可视界面在几分钟内准备机器学习数据。

分析、转换和准备大量数据是机器学习工作流的关键部分,也是最耗时的部分。数据科学家和数据工程师利用在 Amazon EMR 上运行的 Apache Spark、Apache Hive 和 Presto 进行大规模数据准备。即日起,客户可以通过 Data Wrangler 可视界面来发现并连接到运行 Presto 端点的现有 EMR 集群。他们可以浏览数据库、表和架构,编写 Presto 查询以选择、预览和创建机器学习数据集。 然后,他们可以通过 Data Wrangler 可视界面使用数据质量和见解报告分析数据,并使用由 Spark 提供支持的 300 多种内置转换来清理数据和创建机器学习功能,无需编写 Spark 代码。他们可以通过与 SageMaker Autopilot 集成来自动训练和部署机器学习模型。最后,他们可以进行扩展,从而处理具有分布式处理任务的超大型数据集,使用内置调度功能自动准备数据,并使用 SageMaker Pipeline 在生产工作流中运行数据准备以进行训练推断

Data Wrangler 在其目前支持的所有区域均支持 EMR Presto,不额外收费。 要了解更多信息,请参阅此博客文章AWS 技术文档