Pourquoi CloudWatch indique-t-il que mon utilisation des CPU ou des GPU du point de terminaison Amazon SageMaker est supérieure à 100 % ?

Dernière mise à jour : 03/09/2020

La métrique d'utilisation des CPU ou des GPU Amazon CloudWatch pour mon point de terminaison Amazon SageMaker est supérieure à 100 %. Pourquoi ?

Résolution

Les métriques CloudWatch CPUUtilization et GPUUtilization indiquent le pourcentage d'unités CPU ou GPU utilisées par les conteneurs. La valeur est multipliée par le nombre de CPU ou GPU, c'est pourquoi elle peut s’avérer supérieure à 100 %.

Voici quelques exemples :

  • Pour une instance non GPU telle que ml.m4.xlarge, la CPUUtilization peut aller de 0 à 400 % car l'instance dispose de quatre vCPU.
  • Pour une instance GPU telle que ml.p3.8xlarge, la CPUUtilization peut varier entre 0 et 3200 %. La GPUUtilization peut varier entre 0 et 400 %. Cela est dû au fait que l'instance a 32 vCPU et 4 GPU.
  • Pour plusieurs instances, la vue par défaut dans CloudWatch affiche l'utilisation moyenne des CPU ou des GPU pour toutes les instances. Par exemple, si vous disposez de cinq instances ml.m4.xlarge, la CPUUtilization peut varier de 0 à 400 % car chaque instance possède quatre vCPU.

Pour plus d'informations sur les métriques CPUUtilization et GPUUtilizationconsultez Surveiller Amazon SageMaker avec Amazon CloudWatch. Pour obtenir la liste du nombre de vCPU ou de GPU dans chaque type d'instance, consultez la section Tarification Amazon SageMaker.


Cet article vous a-t-il été utile ?


Besoin d'aide pour une question technique ou de facturation ?