Amazon SageMaker Autopilot 新增由 AutoGluon 提供支持的‘集成’训练模式，实验速度现在提升高达 8 倍

发布于: Sep 21, 2022

今天，我们很高兴地宣布，Amazon SageMaker Autopilot 新增一个训练模式，该模式支持由 AutoGluon 提供支持的模型集成。使用较大的数据集 (<100MB) 时，集成训练模式可快速构建准确率较高的机器学习 (ML) 模型，在 250 次试验中，与当前超参数优化 (HPO) 训练模式相比，速度提升多达 8 倍。Amazon SageMaker Autopilot 可根据您的数据自动构建、训练和调整最佳机器学习模型，同时允许您保持完全控制和可见性。当前 HPO 模式使用超参数值组合，以最大限度地提高单个模型的准确率。但是，当单个模型无法捕获数据的复杂特征时，整合（集成）不同模型的预测结果可以显著提高模型的整体准确率。

Amazon SageMaker Autopilot 中的集成训练模式采用 AutoGluon 来训练若干个基础模型，并使用模型堆叠来将其预测结果整合在一起。此模式支持各种算法，包括 LightGBM、CatBoost、XGBoost、Random Forest、Extra Trees、Linear Models 和基于 PyTorch 和 FastAI 的神经网络。为了评估集成模式相对于 HPO 模式的性能提高幅度，我们使用了多个 OpenML 基准数据集，最大不超过 100MB。结果显示，在 250 次试验（平均时长为 15 分钟到 120 分钟不等）中，与 HPO 模式相比，使用较小数据集（不到 1MB）的集成训练作业在 SageMaker Autopilot 上的作业运行时总体缩短多达 8 倍，而试验次数为 100 次时，比 HPO 模式缩短 5.8 倍。在 250 次试验中，与 HPO 模式相比，使用中等 (1-10MB) 和大型数据集 (10-100MB) 的运行时分别缩短 5 倍和 2.5 倍，准确率提高约 1.9%。

要开始使用，您需要在 SageMaker Studio 控制台中创建 SageMaker Autopilot 实验，然后选择“集成”训练模式，或让 SageMaker Autopilot 根据数据集大小自动推断训练模式。您可以参考 createAutoMLJob API 参考指南以了解 API 更新，并升级到 SageMaker Studio 的最新版本以使用新集成训练模式。有关此功能的更多信息，请参阅开发人员指南，要了解有关 SageMaker Autopilot 的更多信息，请访问产品页面。

Amazon SageMaker Autopilot 新增由 AutoGluon 提供支持的‘集成’训练模式，实验速度现在提升高达 8 倍

终止对 Internet Explorer 的支持