发布于: Mar 10, 2023

Amazon SageMaker Data Wrangler 可在 Amazon SageMaker Studio 中将汇总和准备机器学习 (ML) 数据所需的时间从数周缩短至几分钟。使用 Data Wrangler,您可以访问来自各种热门来源(Amazon S3、Amazon Athena、Amazon Redshift、Amazon EMR Presto、Snowflake)和其他超过 40 个第三方来源的数据。即日起,您可以连接到作为大数据查询引擎的 Amazon EMR Hive,为机器学习引入超大型数据集。

汇总和准备海量数据是 ML 工作流程的关键部分。数据科学家和数据工程师利用在 Amazon EMR 上运行的 Apache Spark、Apache Hive 和 Presto 进行大规模数据处理。即日起,客户可以通过 Data Wrangler 的可视界面来发现并连接到运行 Hive 端点的现有 EMR 集群。他们可以浏览数据库、表和架构,编写 Hive 查询,以使用 Data Wrangler 的 SQL 资源管理器选择、预览和创建数据集。然后,他们可以使用 Spark 支持的 300 多种内置分析和转换功能,无需编写任何代码即可直观地分析数据并创建 ML 功能。客户还可以通过 Data Wrangler 可视化界面在 SageMaker Pipeline 中使用 SageMaker Autopilot 训练和部署模型、计划作业或操作数据准备工作。

Data Wrangler 在 Data Wrangler 目前支持的所有区域中均支持 EMR Hive。要了解更多信息,请参阅此博客文章AWS 技术文档