Amazon SageMaker Data Wrangler 现在支持将 Amazon EMR Presto 作为大型数据查询引擎

发布于: Dec 8, 2022

Amazon SageMaker Data Wrangler 可在 Amazon SageMaker Studio 中将汇总和准备机器学习 (ML) 数据所需的时间从数周缩短至几分钟。借助 SageMaker Data Wrangler，您可以简化数据准备和特征工程的过程，并完成数据准备工作流的每个步骤，包括通过单个可视界面进行数据选择、清理、探查和可视化。即日起，您可以连接到 Amazon EMR Presto 并将其作为大型查询引擎，从而引入超大型数据集，并通过 Data Wrangler 可视界面在几分钟内准备机器学习数据。

分析、转换和准备大量数据是机器学习工作流的关键部分，也是最耗时的部分。数据科学家和数据工程师利用在 Amazon EMR 上运行的 Apache Spark、Apache Hive 和 Presto 进行大规模数据准备。即日起，客户可以通过 Data Wrangler 可视界面来发现并连接到运行 Presto 端点的现有 EMR 集群。他们可以浏览数据库、表和架构，编写 Presto 查询以选择、预览和创建机器学习数据集。然后，他们可以通过 Data Wrangler 可视界面使用数据质量和见解报告分析数据，并使用由 Spark 提供支持的 300 多种内置转换来清理数据和创建机器学习功能，无需编写 Spark 代码。他们可以通过与 SageMaker Autopilot 集成来自动训练和部署机器学习模型。最后，他们可以进行扩展，从而处理具有分布式处理任务的超大型数据集，使用内置调度功能自动准备数据，并使用 SageMaker Pipeline 在生产工作流中运行数据准备以进行训练或推断。

Data Wrangler 在其目前支持的所有区域均支持 EMR Presto，不额外收费。要了解更多信息，请参阅此博客文章和 AWS 技术文档。

Amazon SageMaker Data Wrangler 现在支持将 Amazon EMR Presto 作为大型数据查询引擎

终止对 Internet Explorer 的支持