发布于: Dec 1, 2019

借助 Amazon SageMaker Operators for Kubernetes,使用 Kubernetes 的开发人员和数据科学家可以更轻松地在 Amazon SageMaker 中训练、优化和部署机器学习 (ML) 模型。

客户使用 Kubernetes(一种通用的容器编排系统)来设置可重复的管道,对其工作负载保持更好的控制并使之保持更好的可移植性。但是,在 Kubernetes 中运行 ML 工作负载时,客户还必须管理和优化底层 ML 基础设施、确保高可用性和可靠性、提供 ML 工具以提高数据科学家的工作效率并遵守适用的安全性和法规要求。借助 Amazon SageMaker Operators for Kubernetes,客户可以使用 Kubernetes API 或 Kubernetes 工具(如 kubectl)调用 SageMaker,以在 SageMaker 中创建其 ML 作业并与之交互。这样一来,Kubernetes 客户既能获得 Kubernetes 和 EKS 的可移植性和标准化优势,又能通过 Amazon SageMaker 提供的完全托管的 ML 服务获益。

客户可以使用 Amazon SageMaker Operators 进行模型训练、模型超参数优化、实时推理和批量推理。对于模型训练,Kubernetes 客户现在可以利用 SageMaker 中完全托管的 ML 模型训练带来的所有优势,包括托管的 Spot 训练(可节省高达 90% 的成本)以及分布式训练(通过扩展到多个 GPU 节点来缩短训练时间)。仅在需要时才预置计算资源、按需扩展,并在作业完成时自动关闭,以确保达到近 100% 的利用率。对于超参数优化,客户可以使用 SageMaker 的自动模型优化功能,帮助数据科学家节省数天甚至数周的时间,提高模型的准确性。客户还可以使用 Spot 实例进行自动模型优化。对于推理,客户可以使用 SageMaker Operators 将 SageMaker 中经过训练的模型部署到完全托管的 Auto-Scaling 集群中,并分布在多个可用区,从而为实时或批量预测提供高性能和高可用性。

截至本文撰写之时,Amazon SageMaker Operators for Kubernetes 已在美国东部(俄亥俄)、美国东部(弗吉尼亚北部)、美国西部(俄勒冈)和欧洲(爱尔兰)推出。您可以从我们的用户指南GitHub 存储库中获取分步教程,开启学习之旅。