Comment résoudre les erreurs lors de l'exécution de tâches d'entraînement Amazon SageMaker ?

Lecture de 2 minute(s)
0

Je veux résoudre les erreurs lors de l'exécution des tâches d'entraînement Amazon SageMaker.

Solution

Votre tâche d'entraînement SageMaker peut échouer pour de multiples raisons. Vous pouvez identifier la raison de l'échec dans la console SageMaker ou par le biais de l'appel d'API DescribeTrainingJob. Utilisez les étapes de résolution des problèmes suivantes en fonction de l'erreur que vous obtenez lorsque votre tâche d'entraînement échoue.

Erreur interne du serveur

Si votre tâche d'entraînement SageMaker a échoué avec l'erreur interne du serveur, réessayez la tâche pour vous assurer qu'elle n'a pas échoué à cause d'un problème transitoire. Si la tâche échoue lorsque vous réessayez, consultez les journaux des tâches d'entraînement sur Amazon CloudWatch. Vous pouvez trouver ces journaux dans CloudWatch sous le groupe de journaux /aws/sagemaker/TrainingJobs dans le flux de journaux qui ressemble à ce qui suit :

example-training-job-name/algo-example-instance-number-in-cluster-example-epoch-timestamp

Examinez également les métriques de la tâche, telles que CPUUtilization, MemoryUtilization et DiskUtilization, pour vous assurer que l'échec n'est pas lié à un manque de ressources.

Vous pouvez accéder aux journaux des tâches d'entraînement et aux métriques des tâches en suivant les étapes suivantes :

  1. Ouvrez la console SageMaker.
  2. Sélectionnez Training jobs (Tâches d'entraînement), puis choisissez la tâche d'entraînement pour laquelle vous voulez voir les métriques.
  3. Sélectionnez TrainingJobName.
  4. Dans la section Monitor (Surveiller), sélectionnez View logs (Afficher les journaux).
  5. Dans la section Monitor (Surveiller), examinez les graphiques d'utilisation des instances.

Si vous constatez que la tâche utilise toutes les ressources, passez à un type d'instance plus grand ou attachez un volume de stockage plus important à l'instance.

Pour plus d'informations, consultez Surveillance des métriques d'une tâche d'entraînement (Console SageMaker).


Informations connexes

Surveillance et analyse des tâches d'entraînement à l'aide de métriques Amazon CloudWatch

Journaux pour les algorithmes intégrés

AWS OFFICIEL
AWS OFFICIELA mis à jour il y a un an