发布于: Dec 8, 2020
我们非常高兴地宣布推出 Amazon SageMaker Pipelines,这是 Amazon SageMaker 的一项新功能,用于构建、管理、自动执行和扩展端到端机器学习工作流程。SageMaker Pipelines 可实现 ML 工作流程的自动化和编排,让您能够加速机器学习项目,并在生产中扩展至成千上万的模型。
机器学习是一个迭代过程,需要不同利益相关方(如数据工程师、数据科学家、ML 工程师和开发运维工程师)之间密切协作。由于数据准备、特征工程、训练和模型评估涉及的步骤数量可能很多,加大了管理数据依赖项的复杂性,因此构建可扩展的模型构建流程极具挑战性。随着模型数量的增加,管理模型版本并将其部署到生产中需要以一种简单且可扩展的方式实现自动化。最后,在跟踪整个端到端管道的沿袭时,需要通过定制工具来跟踪数据及模型构件和操作。
Amazon SageMaker Pipelines 使数据科学和工程团队能够就 ML 项目无缝协作,并简化端到端 ML 工作流程的构建、自动化和扩展。使用 Amazon SageMaker SDK,您可以通过定义各个参数和步骤(包括 Amazon SageMaker Data Wrangler、Processing、Training、Batch Transform、条件性评估和将模型注册到中心模型注册表)来轻松构建模型构建管道。管道构建完毕后,Amazon SageMaker 将负责管道的执行,您可以在 Amazon SageMaker Studio 中查看管道执行情况以及每个步骤的实时指标和日志。将模型注册到新的 Amazon SageMaker 模型注册表中,该注册表自动对从管道生成的新模型进行版本控制,并提供内置的审批工作流程,以选择将哪些模型部署到生产中。
Amazon SageMaker Pipelines 提供了将持续集成和持续交付 (CI/CD) 应用于机器学习的开发运维最佳实践(称为 MLOps),以自动执行和扩展 ML 模型的构建和部署管道。Amazon SageMaker Pipelines 提供了内置 MLOps 模板,您可以在 ML 项目中开始使用 CI/CD,还可使用自定义 MLOps 模板。这样一来,您可以快速轻松地扩展您的 ML 管道,而无需依赖手动操作,同时更好地确保生产中的代码一致性、集成和单元测试以及可靠的模型更新。最后,Amazon SageMaker Pipelines 会自动跟踪 ML 管道每个步骤的沿袭,无需构建任何自定义工具即可满足任何管理和审计要求。