为什么 CloudWatch 显示我的 Amazon SageMaker 终端节点的 CPU 或 GPU 利用率大于 100%?

上次更新时间:2020 年 9 月 3 日

我的 Amazon SageMaker 终端节点的 Amazon CloudWatch CPU 或 GPU 利用率指标大于 100%。为什么?

解决方法

CloudWatch CPUUtilizationGPUUtilization 指标显示容器目前使用的 CPU 或 GPU 单元的百分比。该值已乘以 CPU 或 GPU 的数量,因此其值可能大于 100%。

下面是一些示例:

  • 对于非 GPU 实例(如 ml.m4.xlarge),CPUUtilization 可以介于 0 到 400% 之间,因为该实例有四个 vCPU。
  • 对于像 ml.p3.8xlarge 这样的 GPU 实例,CPUUtilization 可以介于 0 到 3200% 之间。GPUUtilization 可以介于 0 到 400% 之间。这是因为该实例有 32 个 vCPU 和 4 个 GPU。
  • 对于多个实例,CloudWatch 中的默认视图显示所有实例的平均 CPU 或 GPU 使用率。例如,如果您有五个 ml.m4.xlarge 实例,CPUUtilization 可以介于 0 到 400% 之间,因为每个实例都有四个 vCPU。

有关 CPUUtilizationGPUUtilization 指标的更多信息,请参阅使用 Amazon CloudWatch 监控 Amazon SageMaker。有关每种实例类型中包含多少 vCPU 或 GPU 的列表,请参阅 Amazon SageMaker 定价


这篇文章对您有帮助吗?


您是否需要账单或技术支持?