适用于 MLOps 的 Amazon SageMaker

快速、大规模地提供高性能生产机器学习模型

为什么选择 Amazon SageMaker MLOps

Amazon SageMaker 提供专为机器学习操作(MLOps)构建的工具,以帮助您自动化和标准化机器学习生命周期内的流程。使用 SageMaker MLOps 工具,您可以轻松且大规模地对机器学习模型进行训练、测试、问题排查、部署和治理,从而提高数据科学家和机器学习工程师的生产力,同时保持生产中的模型性能。

工作原理

工作原理

SageMaker MLOps 的优势

建立可重复的训练工作流程以加速模型开发
集中编目机器学习构件,用于模型可再现性和治理
将机器学习工作流程与 CI/CD 管道集成,以加速投入生产
持续监控生产中的数据和模型,以保持质量

加快模型开发

预置标准化数据科学环境

标准化机器学习开发环境可提高数据科学家的生产力,并降低启动新项目、轮换各项目数据科学家和实施机器学习最佳实践的难度,最终提高创新速度。Amazon SageMaker Projects 提供模板,使用历经考验且最新的工具和库、来源控制存储库、样板代码和 CI/CD 管道来快速预置数据科学家标准化环境。

阅读开发者指南,使用 SageMaker 项目实现 MLOps 自动化

SageMaker MLOps - 预置标准化机器学习环境

跨数据科学团队进行协作试验

机器学习模型的构建是一个迭代过程,包括训练数百种不同的模型以搜寻实现所需预测准确度级别所需的最佳算法、模型架构和参数。您可以在这些训练迭代中跟踪输入和输出,使用 Amazon SageMaker Experiments(一项完全托管的机器学习试验管理功能)提升试验的可重复性和数据科学家之间的协作能力。

SageMaker Experiments 跟踪与您的模型训练作业相关的参数、指标、数据集和其他构件。该功能将提供一个界面,您可以在该界面中将进行中的训练作业视觉化、与同事分享试验以及直接从试验中部署模型。

使用 Amazon SageMaker Experiments 管理机器学习

SageMaker Experiments

自动化机器学习训练工作流程

自动化训练工作流程,可帮助您建立可重复的流程,以针对快速试验和模型再训练编排模型开发步骤。您可以使用 Amazon SageMaker Pipelines 自动化整个模型构建工作流程,包括数据准备、特征工程、模型训练、模型调整和模型验证。您可以将 SageMaker Pipelines 配置为定期或在触发某些事件时自动运行,或者您可以根据需要手动运行它们。

详细了解 Amazon SageMaker 建模管线

SageMaker Pipelines

在生产环境中轻松部署和管理模型

快速重现模型以进行问题排查

在生产中,您经常需要重现模型,以对其行为进行问题排查并确定问题根源。为推动这一流程的进行,Amazon SageMaker 会记录您工作流的每个步骤,创建对模型构件(例如训练数据、配置设置、模型参数和学习梯度)的审计跟踪。您可以使用沿袭追踪重建模型,以调试潜在问题。

详细了解 Amazon SageMaker ML 任务流水线追踪功能

SageMaker Lineage Tracking

集中跟踪和管理模型版本

机器学习应用的构建包括开发模型、数据管道、训练管道和验证测试。使用 Amazon SageMaker Model Registry,您可以在一个中央存储库中跟踪模型版本、其元数据(如使用案例分组),以及模型性能指标基准,在这个中央存储库中很容易根据您的业务需求选择适当的部署模型。此外,SageMaker Model Registry 会自动记录审核和合规的批准工作流程。

详细了解如何使用模型注册表注册和部署模型

SageMaker Model Registry

通过代码定义机器学习基础设施

通过声明式配置文件进行编排,一般被称为“基础设施即代码”,是完全按照 CI/CD 管道或部署工具预置机器学习基础设施和实施解决方案架构的一种常用方法。通过 Amazon SageMaker Projects,您可以使用预构建的模板文件来编写基础设施即代码。

详细了解如何使用 SageMaker 项目实现 MLOps 自动化

自动化集成与部署(CI/CD)工作流程

机器学习开发工作流程应与集成与部署工作流程集成,以快速为生产应用提供新模型。Amazon SageMaker Projects 将 CI/CD 实践带入机器学习,例如保持开发和生产环境之间的一致性、源代码和版本控制、A/B 测试以及端到端自动化。因此,您能够在模型获批后立即投入生产,并提高敏捷性。 

此外,Amazon SageMaker 提供内置保护,帮助您维护端点可用性并将部署风险降到最低。SageMaker 负责设置与编排蓝绿部署等部署最佳实践,以最大程度地提升可用性,并将这些最佳实践与自动回滚机制等端点更新机制集成,从而帮助您提早自动识别问题并在其对生产造成显著影响之前采取纠正措施。

使用 SageMaker 项目通过 CI/CD 创建端到端机器学习解决方案

用于机器学习的 Amazon SageMaker CI/CD

持续再训练模型,以保持预测质量

模型投入生产后,您需要配置警报来监控性能,以便待命的数据科学家能够对问题进行排查并触发再训练。Amazon SageMaker Model Monitor 通过实时检测模型漂移和概念漂移,并向您发送警报,以便您可以立即采取措施,从而帮助您维护质量。SageMaker Model Monitor 持续监控模型的性能特征,例如用于衡量与总预测数相比的正确预测数的准确性,以便您可以解决异常情况。SageMaker Model Monitor 与 SageMaker Clarify 集成,从而更清晰地了解潜在偏差。

了解更多

SageMaker Model Monitor

优化性能和成本的模型部署

Amazon SageMaker 使您能够轻松部署机器学习模型,以便以高性能和低成本为任何用例提供推理。Amazon SageMaker 提供一系列广泛的机器学习基础设施选择和模型部署选项,以满足您的所有机器学习推理需求。

了解详情

SageMaker Model Hosting