Amazon SageMaker 调试程序

通过实时监控训练指标和系统资源优化机器学习模型

Amazon SageMaker 调试程序可通过实时捕获训练指标(例如回归期间的数据丢失)以及检测到异常时发送警报来轻松优化机器学习 (ML) 模型。这可以帮助您立即纠正不准确的模型预测,例如对图像的错误识别。达到所需的准确度后,SageMaker 调试程序会自动停止训练过程,从而节省训练机器学习模型的时间和成本。

Amazon SageMaker 调试程序现在可以通过自动分析和监控系统资源利用率以及在发现资源瓶颈(例如过度使用 CPU)时发送警报来帮助您更快地训练模型。在 Amazon SageMaker Studio 中进行训练期间,您可以直观地查看对系统资源(包括 CPU、GPU、网络和内存)的监控和分析,从而可以不断提高资源利用率。SageMaker 调试程序将系统资源使用情况与训练作业的不同阶段以及训练期间的特定时间点相关联,并提供有关如何调整资源利用率的建议,来帮助您重新分配资源,最大限度地提高效率。无需在训练脚本中进行任何代码更改,即可在所有领先的深度学习框架(包括 PyTorch 和 TensorFlow)中进行监控和分析。实时对系统资源进行监控和配置,可帮助您更快地大规模优化机器学习模型。

自动检测、分析和发送警报

Amazon SageMaker 调试程序可以自动检测常见的训练错误(例如,梯度值变得过大或过小)并发送警报提醒您进行纠正,从而将训练期间的故障排除时间从几天缩短到几分钟。您可以在 Amazon SageMaker Studio 中查看警报,也可以通过 Amazon CloudWatch 来配置警报。此外,SageMaker 调试程序开发工具包可以帮助您自动检测模型特定错误的新类,例如数据采样、超参数值和超出范围的值。

监控和分析

Amazon SageMaker 调试程序自动监控系统资源(例如 GPU、CPU、网络和内存)的利用率,分析您的训练作业,以收集详细的机器学习框架指标。您可以通过 SageMaker Studio 直观地检查所有资源指标。资源利用率异常与发现瓶颈(例如过度利用的 CPU)的特定操作相关联,以便您快速采取纠正措施。此外,还可以下载详细报告,进行离线分析。对于训练运行的分析,可以在训练作业开始时执行,也可以在训练过程的任意时间点执行。

内置分析

Amazon SageMaker 调试程序带有内置分析功能,可自动分析训练期间发出的数据,例如输入、输出和转换(也叫“张量”)。因此,您可以检测模型是否过拟合或过度训练、梯度是否变得过大或过小、GPU 资源是否未得到充分利用以及训练过程中出现的其他瓶颈。您可以使用 SageMaker 调试程序创建自己的自定义条件,来测试训练作业中的特定行为。这些条件可以调用停止训练作业和发送短信或电子邮件等操作。尽早停止训练作业将有助于降低次优模型的训练成本,并更快地开发出更优质的原型。

广泛支持机器学习算法和深度学习框架

Amazon SageMaker 调试程序支持机器学习框架,包括 TensorFlow、PyTorch、Apache MXNet、Keras 和 XGBoost。适用于这些框架的 SageMaker 内置容器已预先安装了 SageMaker 调试程序,让您可以轻松地监控、分析和调试训练脚本。默认情况下,SageMaker 调试程序会监控训练期间的系统硬件利用率和损失,无需再编写其他代码来分别监控每个资源。

与 AWS Lambda 集成

Amazon SageMaker 调试程序集成了 AWS Lambda,因此您可以根据警报结果采取措施。例如,检测到非聚合操作(如损失持续增加而非不断减少)时,AWS Lambda 函数可以自动停止训练作业。AWS Lambda 会发送停止训练作业的通知,以便您可以在机器学习开发和训练的早期阶段降低成本并达到预期效果。

客户

Intel-Mobileye_Logo

Mobileye 是辅助驾驶和自动驾驶技术的全球领导者,超过 6000 万的车辆都在使用 Mobileye 技术。

“我们在 Mobileye(官方名称为英特尔旗下公司 Mobileye)开发的许多辅助驾驶和自动驾驶技术,都依赖于训练深度神经网络模型,检测道路上的各种物体,包括车辆、行人、减速带、路标等。通常情况下,训练这些模型需要极大的数据集,而且需要使用多台机器,训练时间长达几天。对于我们 Mobileye 来说,迫切地需要一个具有高级性能分析功能的工具包,对网络、CPU 和 GPU 资源中的数据流进行分析,并准确指出性能问题。Amazon SageMaker 调试程序的分析功能刚好可以满足这些需求,它将性能分析从少数专家领域中解放出来,并使我们的算法开发人员能够最大程度地提高训练资源利用率,加速模型聚合并降低成本。”

Chaim Rand,英特尔旗下公司 Mobileye 机器学习算法开发人员

AutoDesk_Logo

Autodesk 是 3D 设计、工程设计和娱乐软件的全球领导者。Autodesk 可激发用户的创造力,帮助他们解决设计难题并将想法转化为现实。

“在 Autodesk,我们利用机器学习来增强我们的设计和制造解决方案,为我们的客户提供更大程度的创意自由。我们利用机器学习开发了一种新的筛选程序,它可以对具有相似视觉特征的结果进行识别和分类,从而更容易发现最佳选项。Amazon SageMaker 调试程序可以帮助我们关闭反馈循环,为数据科学家节省宝贵的时间,并缩短了多达 75% 的训练时间,让我们能够更有效地迭代该模型。”

Alexander Carlson,Autodesk 机器学习工程师

Change-Healthcare_Logo (1)

Change Healthcare 是一家领先的独立医疗技术公司,提供数据和分析驱动的解决方案,帮助改善美国医疗保健系统中的临床、财务和患者参与度结果。

“在 Change Healthcare,我们一直在与我们的医疗保健提供商合作,共同解决医疗保健索赔处理中效率低下的问题。医疗服务提供商发送给我们的理赔表格经常带有不可读标签,手动修复这些表格会增加理赔处理过程的时间和成本。我们开发了一种多层深度学习模型,它可以附加标签,帮助我们完成理赔处理过程。Amazon SageMaker 调试程序通过快速迭代帮助我们提高了模型的准确性。借助 SageMaker 调试程序,我们可以更深入地了解张量、进行弹性模型训练、协助实时检测不一致性并调优模型参数,从而提高准确性。”

Jayant Thomas,Change Healthcare AI 工程高级总监

Amazon SageMaker 调试程序的资源

使用 Amazon SageMaker 调试程序通过更好的见解更快地训练 ML 模型 (30:22)

立即开始使用 Amazon SageMaker 调试程序