如何解决运行 Amazon SageMaker 训练作业时出现的错误?

上次更新日期:2022 年 10 月 21 日

我想解决运行 Amazon SageMaker 训练作业时出现的错误。

解决方案

SageMaker 训练作业可能由于多种原因而失败。要确定失败的原因,请在 SageMaker 控制台上或通过 DescribeTrainingJob API 调用查看失败原因。根据训练作业失败时出现的错误,使用以下故障排除步骤。

内部服务器错误

如果 SageMaker 训练作业因内部服务器错误而失败,请重试该作业,以确保该作业不会因为暂时性问题而失败。如果在您重试时作业失败,请在 Amazon CloudWatch 上查看训练作业的日志。在 CloudWatch 上,您可以在日志流的日志组 /aws/sagemaker/TrainingJobs 下找到这些日志,看起来类似于以下内容:

example-training-job-name/algo-example-instance-number-in-cluster-example-epoch-timestamp

此外,请查看作业指标,例如 CPUUtilization、MemoryUtilization 和 DiskUtilization,以确保故障不是由于资源紧张而发生的。

您可以通过以下方式访问训练作业日志和作业指标:

  1. 打开 SageMaker 控制台
  2. 选择 Training jobs(训练作业),然后选择要查看其指标的训练作业。
  3. 选择 TrainingJobName(训练作业名称)。
  4. Monitor(监控)部分中,选择 View logs(查看日志)。
  5. Monitor(监控)部分中,查看实例利用率的图表。

如果您发现该作业耗尽了所有资源,请切换到更大的实例类型,或者将更大的存储卷连接到该实例。

有关更多信息,请参阅监控训练作业指标(SageMaker 控制台)


这篇文章对您有帮助吗?


您是否需要账单或技术支持?