通过实时捕获训练指标,并在检测到异常时发送警报来优化 ML 模型
自动检测、分析和发送警报
Amazon SageMaker 调试程序可以自动检测常见的训练错误(例如,梯度值变得过大或过小)并发送警报提醒您进行纠正,从而将训练期间的故障排除时间从几天缩短到几分钟。您可以在 Amazon SageMaker Studio 中查看警报,也可以通过 Amazon CloudWatch 来配置警报。此外,SageMaker 调试程序开发工具包可以帮助您自动检测模型特定错误的新类,例如数据采样、超参数值和超出范围的值。
内置分析
Amazon SageMaker 调试程序带有内置分析功能,可自动分析训练期间发出的数据,例如输入、输出和转换(也叫“张量”)。因此,您可以检测模型是否过拟合或过度训练、梯度是否变得过大或过小、GPU 资源是否未得到充分利用以及训练过程中出现的其他瓶颈。您可以使用 SageMaker 调试程序创建自己的自定义条件,来测试训练作业中的特定行为。这些条件可以调用停止训练作业和发送短信或电子邮件等操作。尽早停止训练作业将有助于降低次优模型的训练成本,并更快地开发出更优质的原型。
广泛支持机器学习算法和深度学习框架
Amazon SageMaker 调试程序支持机器学习框架,包括 TensorFlow、PyTorch、Apache MXNet、Keras 和 XGBoost。适用于这些框架的 SageMaker 内置容器已预先安装了 SageMaker 调试程序,让您可以轻松地监控、分析和调试训练脚本。默认情况下,SageMaker 调试程序会监控训练期间的系统硬件利用率和损失,无需再编写其他代码来分别监控每个资源。
与 AWS Lambda 集成
Amazon SageMaker 调试程序集成了 AWS Lambda,因此您可以根据警报结果采取措施。例如,检测到非聚合操作(如损失持续增加而非不断减少)时,AWS Lambda 函数可以自动停止训练作业。AWS Lambda 会发送停止训练作业的通知,以便您可以在机器学习开发和训练的早期阶段降低成本并达到预期效果。
客户

Mobileye 是辅助驾驶和自动驾驶技术的全球领导者,超过 6 千万的车辆都在使用 Mobileye 技术。
“我们在 Mobileye(官方名称为英特尔旗下公司 Mobileye)开发的许多辅助驾驶和自动驾驶技术,都依赖于训练深度神经网络模型,检测道路上的各种物体,包括车辆、行人、减速带、路标等。通常情况下,训练这些模型需要极大的数据集,而且需要使用多台机器,训练时间长达几天。对于我们 Mobileye 来说,迫切地需要一个具有高级性能分析功能的工具包,对网络、CPU 和 GPU 资源中的数据流进行分析,并准确指出性能问题。Amazon SageMaker 调试程序的分析功能刚好可以满足这些需求,它将性能分析从少数专家领域中解放出来,并使我们的算法开发人员能够最大程度地提高训练资源利用率,加速模型聚合并降低成本。”
Chaim Rand,英特尔旗下公司 Mobileye 机器学习算法开发人员

Autodesk 是 3D 设计、工程设计和娱乐软件的全球领导者。Autodesk 可激发用户的创造力,帮助他们解决设计难题并将想法转化为现实。
“在 Autodesk,我们利用机器学习来增强我们的设计和制造解决方案,为我们的客户提供更大程度的创意自由。我们利用机器学习开发了一种新的筛选程序,它可以对具有相似视觉特征的结果进行识别和分类,从而更容易发现最佳选项。Amazon SageMaker 调试程序可以帮助我们关闭反馈循环,为数据科学家节省宝贵的时间,并缩短了多达 75% 的训练时间,让我们能够更有效地迭代该模型。”
Alexander Carlson,Autodesk 机器学习工程师

Change Healthcare 是一家领先的独立医疗技术公司,提供数据和分析驱动型解决方案,帮助改善美国医疗保健系统中的临床、财务和患者参与度结果。
“在 Change Healthcare,我们一直在与我们的医疗保健提供商合作,共同解决医疗保健索赔处理中效率低下的问题。医疗服务提供商发送给我们的理赔表格经常带有不可读标签,手动修复这些表格会增加理赔处理过程的时间和成本。我们开发了一种多层深度学习模型,它可以附加标签,帮助我们完成理赔处理过程。Amazon SageMaker 调试程序通过快速迭代帮助我们提高了模型的准确性。借助 SageMaker 调试程序,我们可以更深入地了解张量、进行弹性模型训练、协助实时检测不一致性并调优模型参数,从而提高准确性。”
Jayant Thomas,Change Healthcare AI 工程高级总监