Amazon ECS 托管实例现支持 NVIDIA GPU 指标
Amazon Elastic Container Service(Amazon ECS)现在为在 Amazon ECS 托管实例上运行的容器化工作负载提供 NVIDIA GPU 指标。这些指标可通过具备增强可观测性的 Amazon CloudWatch Container Insights 获取,使客户能够全面掌握 GPU 的运行状况和性能,从而帮助排除故障并优化 Amazon ECS 上的 GPU 加速工作负载。
借助新的 GPU 指标,Amazon ECS 托管实例客户现在可以直接在 CloudWatch 中监控 GPU 容量、利用率、内存、硬件运行状况和热状况。借助具备增强可观测性的 Container Insights,客户可以详细查看这些指标,包括 GPU 设备级别的指标。这些指标使客户能够全面掌握整个 Amazon ECS 托管实例集中 GPU 的运行状况和硬件运行状况,从而帮助他们合理配置 GPU 容量、排查性能问题,并在问题影响 AI/ML 训练和推理等 GPU 加速工作负载之前及时发现并解决。
适用于 Amazon ECS 托管实例的 NVIDIA GPU 指标已通过 Container Insights 在所有 AWS 商业区域提供。要开始使用,请在您的 Amazon ECS 集群上启用具备增强可观测性的 Container Insights,并通过 Amazon ECS 托管实例容量提供程序启动 GPU 加速的 Amazon EC2 实例类型。有关 Container Insights 的定价,请参阅 Amazon CloudWatch 定价。要了解更多信息,请参阅 Amazon ECS Container Insights 增强可观测性指标用户指南。