发布于: Nov 2, 2023

现在,您可以从 Amazon EMR Studio 启动 Amazon SageMaker Data Wrangler,为机器学习 (ML) 准备低代码数据。Amazon EMR 是云大数据解决方案,适用于使用开源框架(如 Apache Spark、Apache Hive 和 Presto)进行 PB 级数据处理、交互分析和机器学习。Amazon SageMaker Data Wrangler 可将汇总和准备机器学习 (ML) 数据所需的时间从数周缩短至几分钟。新的集成简化了从 EMR Studio 启动 SageMaker Data Wrangler 的体验,无需编写代码即可为 ML 准备数据。

分析、转换和准备大量数据是机器学习工作流的关键部分,也是最耗时的部分。从今日起,客户现在可以从 EMR Studio 启动 SageMaker Data Wrangler,从而发现和连接到现有的 EMR 集群。然后,客户可以通过 Data Wrangler 可视界面使用数据质量和见解报告分析数据,并使用由 Spark 提供支持的 300 多种转换来清理数据和创建机器学习功能。他们可以进行扩展,从而处理具有分布式处理作业的超大型数据集,使用内置的调度功能自动准备数据,或与 SageMaker Pipeline 集成以进行端到端训练或执行推理工作流。他们还可以使用 SageMaker Data Wrangler 的 SageMaker Autopilot 集成的可视化界面,自动训练和部署 ML 模型。 

新的集成已在所有提供 EMR 和 SageMaker Data Wrangler 的商业区域推出。有关更多信息,请参阅 AWS 技术文档