Como soluciono erros ao executar trabalhos de treinamento do Amazon SageMaker?

2 minuto de leitura
0

Quero solucionar erros ao executar trabalhos de treinamento do Amazon SageMaker.

Resolução

Seu trabalho de treinamento do SageMaker pode falhar por vários motivos. Para identificar o motivo da falha, verifique-o no console do SageMaker ou por meio da chamada de API DescribeTrainingJob. Use as etapas de solução de problemas a seguir com base no erro que você recebe quando seu trabalho de treinamento falha.

Erro interno do servidor

Se o trabalho de treinamento do SageMaker falhou com o erro interno do servidor, tente novamente para garantir que o trabalho não tenha falhado devido a um problema temporário. Se o trabalho falhar quando você tentar novamente, revise os logs dos trabalhos de treinamento no Amazon CloudWatch. Você pode encontrar esses registros no CloudWatch no grupo de logs /aws/sagemaker/TrainingJobs no fluxo de logs que se parece com o seguinte:

example-training-job-name/algo-example-instance-number-in-cluster-example-epoch-timestamp

Além disso, revise as métricas do trabalho, como CPUUtilization, MemoryUtilization e DiskUtilization, para garantir que a falha não tenha ocorrido devido a uma escassez de recursos.

Você pode acessar os logs de trabalhos de treinamento e as métricas de trabalho fazendo o seguinte:

  1. Abra o console do SageMaker.
  2. Escolha Trabalhos de treinamento e, em seguida, escolha o trabalho de treinamento cujas métricas você deseja ver.
  3. Escolha TrainingJobName.
  4. Na seção Monitor, escolha Exibir logs.
  5. Na seção Monitor, revise os gráficos de utilização da instância.

Se você descobrir que o trabalho está usando todos os recursos, mude para um tipo de instância maior ou anexe um volume de armazenamento maior à instância.

Para obter mais informações, consulte Monitorar métricas de trabalhos de treinamento (console do SageMaker).


Informações relacionadas

Monitorar e analisar trabalhos de treinamento usando métricas do Amazon CloudWatch

Logs para algoritmos integrados

AWS OFICIAL
AWS OFICIALAtualizada há 2 anos