¿Cómo soluciono los errores al ejecutar trabajos de formación de Amazon SageMaker?

Actualización más reciente: 21/10/2022

Quiero solucionar errores que se producen al ejecutar trabajos de formación de Amazon SageMaker.

Resolución

Su trabajo de formación de SageMaker puede generar un error debido a múltiples razones. Para identificar el motivo del error, compruébelo en la consola de SageMaker o a través de la llamada a la API DescribeTrainingJob. Utilice los siguientes pasos para solucionar el problema en función del error que obtenga al producirse un error en el trabajo de formación.

Internal Server Error (error interno del servidor)

Si su trabajo de formación de SageMaker produjo un error de servidor interno, vuelva a intentar el trabajo para asegurarse de que el error no se produjo debido a un problema transitorio. Si el trabajo produce un error al reintentarlo, revise los registros de los trabajos de formación en Amazon CloudWatch. Puede encontrar estos registros en CloudWatch bajo el grupo de registros /aws/sagemaker/TrainingJobs, en la secuencia de registros que tiene un aspecto similar al siguiente:

example-training-job-name/algo-example-instance-number-in-cluster-example-epoch-timestamp

Asimismo, revise las métricas del trabajo, como CPUUtilization, MemoryUtilization y DiskUtilization para asegurarse de que el error no se produjo debido a la escasez de recursos.

Puedes acceder a los registros de trabajos de formación y a las métricas de los trabajos de la siguiente manera:

  1. Abra la consola de SageMaker.
  2. Seleccione Training jobs (Trabajos de formación) y, a continuación, el trabajo de formación del que desea ver las métricas.
  3. Seleccione TrainingJobName.
  4. En la sección Monitor, seleccione View logs (Ver registros).
  5. En la sección Monitor, revise los gráficos de uso de la instancia.

Si observa que el trabajo está consumiendo todos los recursos, cambie a un tipo de instancia mayor o adjunte un volumen de almacenamiento mayor a la instancia.

Para obtener más información, consulte Monitoring training job metrics (SageMaker console) (Monitoreo de métricas de trabajos de formación [consola de SageMaker]).


Monitor and analyze training jobs using Amazon CloudWatch metrics (Monitorear y analizar trabajos con Amazon CloudWatch)

Logs for built-in algorithms (Registros de algoritmos integrados)

¿Le resultó útil este artículo?


¿Necesita asistencia técnica o con la facturación?