发布于: Aug 22, 2023
Amazon SageMaker Data Wrangler 可在 Amazon SageMaker Studio 中将汇总和准备机器学习 (ML) 数据所需的时间从数周缩短至几分钟。使用 SageMaker Data Wrangler,您可以访问来自各种热门来源(包括 Amazon S3、Amazon Athena、Amazon Redshift、Amazon EMR、Snowflake)和其他超过 50 个第三方来源的数据。即日起,您可以在 EMR Hive 和 Presto 连接中将基于角色的访问控制与 AWS Lake Formation 结合使用,以便在 SageMaker Data Wrangler 中为 ML 创建数据集。
管理员使用 Lake Formation 配置基于 EMR 角色的访问权限,并提供对 SageMaker Sudio 中所用 IAM 角色的数据访问权限后,您就可以使用相同的 IAM 角色从 SageMaker Data Wrangler 连接到 EMR,以使用 Lake Formation 进行身份验证和授权。您可以使用 EMR Hive 和 Presto 连接来浏览由 Lake Formation 管理的 S3 数据湖中的数据,并为 ML 创建数据集。然后,您可以使用 SageMaker Data Wrangler 的可视化界面和由 Spark 支持的 300 多种内置分析和数据转换快速了解数据质量、清理数据并创建特征,而无需编写代码。您还可以通过 SageMaker Autopilot 训练和部署模型,并通过与 SageMaker Pipeline 的集成,在特征工程、训练或推理管道中操作数据准备过程,所有这些都在 SageMaker Data Wrangler 中进行。