為何 CloudWatch 顯示我 Amazon SageMaker 端點的 CPU 或 GPU 使用率高於 100%?

1 分的閱讀內容
0

根據 Amazon CloudWatch,Amazon SageMaker 端點的 CPU 或 GPU 使用率指標高於 100%。

解決方法

CloudWatch 的 CPUUtilizationGPUUtilization 指標能顯示容器正在使用的 CPU 或 GPU 單元百分比。該值會乘以 CPU 或 GPU 的數量,這也是最終顯示值高於 100% 的原因。

以下提供幾個範例:

  • 如果是非 GPU 執行個體 (例如 ml.m4.xlarge),由於執行個體具有 4 個 vCPU,CPUUtilization 可能介於 0 到 400% 之間。
  • 若是 GPU 執行個體 (例如 ml.p3.8xlarge),CPUUtilization 可能介於 0 到 3200% 之間。GPUUtilization 可能介於 0 到 400% 之間,這是因為執行個體具有 32 個 vCPU 和 4 個 GPU。
  • 如果有多個執行個體,CloudWatch 中的預設檢視畫面會顯示所有執行個體的平均 CPU 或 GPU 使用率。例如,如果您有 5 個 ml.m4.xlarge 執行個體,由於每個執行個體都有 4 個 vCPU,因此 CPUUtilization 可能介於 0 到 400% 之間。

如需 CPUUtilizationGPUUtilization 指標的詳細資訊,請參閱使用 Amazon CloudWatch 監控 Amazon SageMaker。如需透過清單了解每種執行個體類型的 vCPU 或 GPU 數量,請參閱 Amazon SageMaker 定價


AWS 官方
AWS 官方已更新 2 年前