适用于 MLOps 的 Amazon SageMaker
快速、大规模地提供高性能生产机器学习模型
建立可重复的训练工作流程以加速模型开发
集中编目机器学习构件,用于模型可再现性和治理
将机器学习工作流程与 CI/CD 管道集成,以加速投入生产
持续监控生产中的数据和模型,以保持质量
Amazon SageMaker 提供专为机器学习操作(MLOps)构建的工具,以帮助您自动化和标准化机器学习生命周期内的流程。使用 SageMaker MLOps 工具,您可以轻松且大规模地对机器学习模型进行训练、测试、问题排查、部署和治理,从而提高数据科学家和机器学习工程师的生产力,同时保持生产中的模型性能。
工作原理:Amazon SageMaker MLOps

加快模型开发
跨数据科学团队进行协作试验
机器学习模型的构建是一个迭代过程,包括训练数百种不同的模型以搜寻实现所需预测准确度级别所需的最佳算法、模型架构和参数。您可以在这些训练迭代中跟踪输入和输出,使用 Amazon SageMaker Experiments(一项完全托管的机器学习试验管理功能)提升试验的可重复性和数据科学家之间的协作能力。
在生产环境中轻松部署和管理模型
快速重现模型以进行问题排查
在生产中,您经常需要重现模型,以对其行为进行问题排查并确定问题根源。为推动这一流程的进行,Amazon SageMaker 会记录您工作流的每个步骤,创建对模型构件(例如训练数据、配置设置、模型参数和学习梯度)的审计跟踪。您可以使用沿袭追踪重建模型,以调试潜在问题。
集中跟踪和管理模型版本
机器学习应用的构建包括开发模型、数据管道、训练管道和验证测试。使用 Amazon SageMaker Model Registry,您可以在一个中央存储库中跟踪模型版本、其元数据(如使用案例分组),以及模型性能指标基准,在这个中央存储库中很容易根据您的业务需求选择适当的部署模型。此外,SageMaker Model Registry 会自动记录审核和合规的批准工作流程。
通过代码定义机器学习基础设施
通过声明式配置文件进行编排,一般被称为“基础设施即代码”,是完全按照 CI/CD 管道或部署工具预置机器学习基础设施和实施解决方案架构的一种常用方法。通过 Amazon SageMaker Projects,您可以使用预构建的模板文件来编写基础设施即代码。
自动化集成与部署(CI/CD)工作流程
机器学习开发工作流程应与集成与部署工作流程集成,以快速为生产应用提供新模型。Amazon SageMaker Projects 将 CI/CD 实践带入机器学习,例如保持开发和生产环境之间的一致性、源代码和版本控制、A/B 测试以及端到端自动化。因此,您能够在模型获批后立即投入生产,并提高敏捷性。
此外,Amazon SageMaker 提供内置保护,帮助您维护端点可用性并将部署风险降到最低。SageMaker 负责设置与编排蓝绿部署等部署最佳实践,以最大程度地提升可用性,并将这些最佳实践与自动回滚机制等端点更新机制集成,从而帮助您提早自动识别问题并在其对生产造成显著影响之前采取纠正措施。
持续再训练模型,以保持预测质量
模型投入生产后,您需要配置警报来监控性能,以便待命的数据科学家能够对问题进行排查并触发再训练。Amazon SageMaker Model Monitor 通过实时检测模型漂移和概念漂移,并向您发送警报,以便您可以立即采取措施,从而帮助您维护质量。SageMaker Model Monitor 持续监控模型的性能特征,例如用于衡量与总预测数相比的正确预测数的准确性,以便您可以解决异常情况。SageMaker Model Monitor 与 SageMaker Clarify 集成,从而更清晰地了解潜在偏差。
客户成功案例

NatWest Group 是一家大型金融服务机构,实现了组织内机器学习模型开发和部署流程的自动化,将创建新机器学习环境的周转周期从 40 天缩短至 2 天,并将机器学习用例实现价值的时间从 40 周加速到 16 周。

“我们可以在 Amazon SageMaker Studio 中轻松自动化大部分机器学习开发流程,而不需要创建许多手动流程。”
AstraZeneca 全球高级企业架构师 – Cherry Cabading

利用 AWS 服务(包括 Amazon SageMaker),Janssen 实现了自动化 MLOps 流程,将模型预测的准确度提高了 21%,特征工程的速度增加了约 700%,在降低成本的同时,提高了效率。

“Amazon SageMaker 使用大规模测试和部署机器学习模型所需的工具,提升了我们 MLOps 团队的效率。”
Qualtrics 机器学习工程师 – Samir Joshi