介绍面向 Amazon ECS 托管实例的 GPU 运行状况监控和自动修复功能

发布于: 2026年4月22日

Amazon Elastic Container Service (Amazon ECS) 现在为 Amazon ECS 托管实例提供 NVIDIA GPU 运行状况监控和自动修复功能。此新增功能可自动检测关键的 NVIDIA GPU 硬件故障并替换受损实例,帮助客户提高 GPU 加速容器化工作负载的可用性和可靠性。

运行 GPU 加速的工作负载(例如 GenAI 推理)需要专门的硬件管理以减少故障并最大限度地减少中断。Amazon ECS 托管实例现在使用 NVIDIA Data Center GPU 管理器 (DCGM) 持续监控 GPU 运行状况,并在发生严重故障时主动更换受损容量。您可以通过 DescribeContainerInstances API 监控 GPU 运行状况,并在实例受损时通过 Amazon EventBridge 接收通知。对于您更喜欢手动管理实例生命周期的工作负载,您可以在容量提供商级别选择取消自动修复,并使用自己的修复逻辑处理 GPU 错误事件。

在支持的 NVIDIA GPU 实例类型上运行的所有 Amazon ECS 托管实例默认启用 GPU 运行状况自动修复,无需额外收费。此功能现已在所有 AWS 商业区域推出。要了解更多信息,请访问 Amazon ECS 开发人员指南