Amazon SageMaker 推出 AI 推理中的缩减到零功能以帮助客户节省成本

发布于: 2024年11月25日

我们很高兴地宣布推出缩减到零功能，这是 Amazon SageMaker Inference 中的一项新功能，支持终端节点在不活动期间缩减到零个实例。此功能可以显著降低使用 AI 模型进行推理的成本，特别适合具有可变流量模式的应用程序，例如聊天机器人、内容审核系统以及其他生成式人工智能使用案例。

借助缩减到零功能，客户可以将其 SageMaker 推理终端节点配置为在不使用时自动缩减到零个实例，然后在流量恢复时快速扩展。此功能对于具有可预测流量模式、间歇性推理流量和开发/测试环境的场景非常有用。使用 SageMaker 推理组件实施缩减到零功能很简单。客户可以通过适用于 Python 的 AWS SDK (Boto3)、SageMaker Python SDK 或 AWS 命令行界面 (AWS CLI) 配置自动扩展策略。该流程包括设置启用了托管实例扩展的终端节点、配置扩展策略以及创建 CloudWatch 警报以触发扩展操作。

缩减到零功能现已在支持 Amazon SageMaker 的所有 AWS 区域全面推出。要了解有关实施缩减到零功能和优化生成式人工智能部署成本的更多信息，请访问我们的文档页面。

选择您的 Cookie 首选项

Amazon SageMaker 推出 AI 推理中的缩减到零功能以帮助客户节省成本

终止对 Internet Explorer 的支持