发布于: Dec 8, 2020
我们很高兴地宣布 Amazon SageMaker 调试程序宣布推出新功能,可以实时监控系统资源以确保高效利用。借助这些新功能,您现在自动可以获得有关为训练作业重新分配资源的建议,以帮助更好地执行训练并降低时间消耗和成本。
Amazon SageMaker 调试程序是 Amazon SageMaker 的一项功能,可以获取学习梯度和权重等实时指标、直观地显示整个训练过程,让您能够纠正丢失、过拟合和过度训练等异常情况,从而轻松提高机器学习模型的训练速度。SageMaker 调试程序提供一种称为规则的内置方法,可轻松分析发出的数据(包括对于训练作业的成功至关重要的张量),例如确定尽管模型的训练准确度超过 90%,但机器学习模型仍将左转交通信号预测为右转交通信号的原因。
借助新推出的分析功能,SageMaker 调试程序现在会自动监控 CPU、GPU、网络、I/O 和内存等系统资源,从而让您全面了解训练作业的资源利用率。您还可以分析整个训练作业或其中的任何部分,从而在训练作业的不同阶段发出详细的框架指标。框架指标是从训练脚本内部捕获的指标,例如步长、数据加载、预处理以及 CPU 和 GPU 上的运算符执行时间。SageMaker 调试程序将系统指标和框架指标相关联,这可帮助您确定 GPU 利用率降至零等问题的可能根本原因,从而让您能够检查自己的训练脚本并相应排查问题。您还可以根据分析报告中的建议重新分配资源,从而缩短训练时间并降低成本。指标和见解将使用 SageMaker Python 开发工具包以程序化的方式捕获和监控,也可以通过 Amazon SageMaker Studio 直观地捕获和监控。