Amazon SageMaker Pipelines

首个专为机器学习构建的 CI/CD 服务

Amazon SageMaker Pipelines 是首个专为机器学习 (ML) 构建的易用的持续集成和持续交付 (CI/CD) 服务。借助 SageMaker Pipelines,您可以大规模创建、自动化和管理端到端机器学习工作流。

在机器学习过程的每个步骤中编排工作流时(例如,探索和准备数据、试用不同的算法和参数、训练和调优模型以及将模型部署到生产中),可能需要花费几个月的时间进行编码。

由于 SageMaker Pipelines 是专为机器学习而构建的,因此它可以帮助您自动执行机器学习工作流的不同步骤,包括数据加载、数据转换、训练和调优以及部署。借助于 SageMaker Pipelines,您可以在一周内构建数十个机器学习模型、管理大量数据、进行数千次训练实验以及构建数百种不同的模型版本。您可以共享和重用工作流来重新创建或优化模型,从而帮助您在整个组织中扩展机器学习。

如何借助 Amazon SageMaker Pipelines 创建完全自动化的 ML 工作流 (29:23)

主要功能

编写、管理和重用机器学习工作流

使用 Amazon SageMaker Pipelines,您可以使用易用的 Python 开发工具包来创建机器学习工作流,然后使用 Amazon SageMaker Studio 来可视化和管理您的工作流。通过存储和重用在 SageMaker Pipelines 中创建的工作流步骤,可以提高效率并更快扩展。您还可以快速使用内置模板来构建、测试、注册和部署模型,从而可以在机器学习环境中快速开始使用 CI/CD。

选择要部署到生产中的最佳模型

许多客户都有数百个工作流,而每个工作流又有同一模型的不同版本。借助于 SageMaker Pipelines 模型注册表,您可以在一个集中的存储库中跟踪这些版本,轻松地根据业务需求选择要部署的合适模型。您可以使用 SageMaker Studio 浏览和发现模型,也可以通过 SageMaker Python 开发工具包访问它们。

自动跟踪模型

Amazon SageMaker Pipelines 会记录您工作流的每个步骤,创建对模型组件(例如训练数据、平台配置、模型参数和学习梯度)的审计跟踪。审计跟踪可用于重新创建模型并帮助支持合规性要求。

将 CI/CD 引入机器学习

Amazon SageMaker Pipelines 将 CI/CD 实践引入机器学习,例如维护开发和生产环境之间的平衡、版本控制、按需测试和端到端自动化,从而帮助您在整个组织中扩展机器学习。

客户

iFood
“在 iFood,我们致力于通过采用机器学习 (ML) 等技术的服务来使客户满意。…建立完整无缝的工作流来开发、训练和部署模型,一直是我们扩展机器学习之旅的关键部分。Amazon SageMaker Pipelines 帮助我们快速构建多个可扩展的自动化机器学习工作流,并让我们轻松有效地部署和管理模型。SageMaker Pipelines 使我们的开发周期更加高效。我们通过 Amazon SageMaker 的所有这些新功能继续加强我们在使用 AI/ML 提供卓越客户服务和效率方面的领导地位。”

iFood 首席数据科学家 Sandor Caetano

Invista_Logo
“在 INVISTA,我们以转型为动力,并致力于开发可让全球客户从中受益的产品和技术。我们将机器学习视为改善客户体验的一种方式,但对于包含数亿行的数据集,我们需要一个解决方案来帮助我们准备数据,并大规模地开发、部署和管理机器学习模型。...我们可以使用 Amazon SageMaker Pipelines 轻松地大规模自动化和管理机器学习工作流,以便我们可以轻松地将机器学习工作流的各个步骤组合在一起...借助于 Amazon SageMaker Pipelines,我们可以更快地运行机器学习工作流。”

Caleb Wilkinson,INVISTA 首席数据科学家

Care.com
“供需平衡的强大护理行业对于从单个家庭到国家 GDP 的经济增长都至关重要。Amazon SageMaker Pipelines 让我们感到非常兴奋,因为我们相信,它将通过使用一组一致的精选数据,帮助我们在数据科学和开发团队中更好地实现扩展,我们可以使用这些精选数据构建从数据准备到部署的可扩展端到端机器学习 (ML) 模型管道。借助最新公布的 Amazon SageMaker 功能,我们可以加快针对不同应用的机器学习模型的开发和部署,通过更快的实时推荐帮助客户作出更明智的决策。”

Clemens Tummeltshammer,Care.com 数据科学部经理

3M_Logo
“通过使用机器学习,3M 正在改进久经考验的产品(如砂纸),并推动其他领域的创新,包括医疗保健。随着我们计划将机器学习扩展到 3M 的更多领域,我们看到数据和模型的数量正在快速增长 – 每年翻一番。我们热衷于新的 SageMaker 功能,因为它们将帮助我们实现扩展。Amazon SageMaker Data Wrangler 使准备模型训练数据变得更加容易,并且 Amazon SageMaker Feature Store 消除了重复创建相同模型功能的需要。最后,Amazon SageMaker Pipelines 将帮助我们自动准备数据、构建模型并将模型部署到端到端工作流程中,以便缩短模型的上市时间。我们的研究人员期待着利用 3M 的新科学速度。”

David Frazee,3M 公司系统研究实验室技术主管

开始使用 Amazon SageMaker Pipelines