Come posso risolvere gli errori durante l'esecuzione dei processi di formazione di Amazon SageMaker?

Ultimo aggiornamento: 21/10/2022

Desidero risolvere gli errori che si verificano durante l'esecuzione dei processi di formazione di Amazon SageMaker.

Risoluzione

Il processo di formazione SageMaker potrebbe fallire per diversi motivi. Per identificare il motivo dell'errore, controllalo sulla console SageMaker o tramite la chiamata API DescribeTrainingJob. Utilizza i seguenti passaggi per risolvere i problemi in base all'errore che si verifica quando il processo di formazione fallisce.

Internal Server Error (Errore interno del server)

Se il processo di formazione SageMaker non è riuscito e ha restituito il messaggio "Errore interno del server", riprova il processo per assicurarti che non abbia avuto esito negativo a causa di un problema temporaneo. Se il processo fallisce quando riprovi, consulta i registri relativi ai processi di formazione su Amazon CloudWatch. Puoi trovare questi registri in CloudWatch nel gruppo di log /aws/sagemaker/TrainingJobs nel flusso di log simile al seguente:

example-training-job-name/algo-example-instance-number-in-cluster-example-epoch-timestamp

Inoltre, rivedi le metriche del processo, come CPUUtilization, MemoryUtilization e DiskUtilization per assicurarti che l'errore non si sia verificato a causa di un esaurimento delle risorse.

Puoi accedere ai registri e alle metriche dei processi di formazione procedendo come segue:

  1. Apri la console SageMaker.
  2. Scegli Training jobs (Processi di formazione) e poi scegli il processo di formazione per il quale desideri visualizzare le metriche.
  3. Scegli TrainingJobName.
  4. Nella sezione Monitor (Monitoraggio), scegli View logs (Vedi registri).
  5. Nella sezione Monitor (Monitoraggio), esamina i grafici dell'utilizzo delle istanze.

Se scopri che il processo sta utilizzando tutte le risorse, passa a un tipo di istanza più grande o collega un volume di archiviazione più grande all'istanza.

Per ulteriori informazioni, consulta Monitoring training job metrics (SageMaker console) (Monitoraggio delle metriche dei processi di formazione nella console SageMaker).


Monitor and analyze training jobs using Amazon CloudWatch metrics (Monitora e analizza i processi di formazione utilizzando le metriche di Amazon CloudWatch)

Logs for built-in algorithms (Registri per algoritmi integrati)

Questo articolo è stato utile?


Benötigen Sie Hilfe zur Fakturierung oder technischen Support?