发布于: Jan 21, 2022

Amazon SageMaker Pipelines 是一项全托管式服务,允许客户将其模型构建步骤定义和编排为工作流。今天,我们很高兴介绍一种新的步骤类型,它允许机器学习工程师在 Amazon EMR 集群上使用开放源代码框架(如Apache Spark、Presto 和 Hive)运行数据处理应用程序。

SageMaker Pipelines 已经提供了各种步骤(例如处理、培训、注册模型、回调等),这些步骤允许客户灵活定义其模型构建工作流。通常,客户希望使用在 EMR 上运行的 Spark、Hive 和 Presto 等开源框架,在模型构建过程中在 EMR 集群上执行数据处理任务(特征工程)。使用新推出的 SageMaker Pipelines EMR 步骤,客户可以将这些任务作为 EMR 集群上的 EMR 作业提交。SageMaker Pipelines EMR 步骤要求客户提供 EMR 集群的集群 ID 以及需要在集群上执行的 EMR 作业的执行属性。Sagemaker Pipelines 负责建立安全连接、提交 EMR 工作负载并积极跟踪其完成情况。在创建后,SageMaker Pipelines EMR 步骤可以与其他 SageMaker Pipelines 步骤一起集成到 ML 模型构建工作流中。

此功能将在所有提供 Amazon SageMaker 的 AWS 区域推出。要开始使用,请使用 EMR 步骤从 SageMaker Studio 或命令行界面创建新的 SageMaker Pipeline。要了解详情,请访问我们的文档页面。