Amazon SageMaker AI

Amazon SageMaker 模型训练

训练和微调机器学习模型以及生成式人工智能模型

开始使用 SageMaker AI

什么是 SageMaker 模型训练？

Amazon SageMaker 模型训练可减少大规模训练和调整机器学习（ML）模型的时间和成本，而无需管理基础设施。您可以充分利用目前可用的性能最高的机器学习计算基础设施，Amazon SageMaker AI 可自动扩展或缩减基础设施，从一个 GPU 扩展到数千个 GPU。为了更快地训练深度学习模型，SageMaker AI 可帮助您实时选择和优化数据集。SageMaker 分布式训练库可自动在 AWS GPU 实例之间拆分大型模型和训练数据集，或者您也可以使用第三方库，例如 DeepSpeed、Horovod 或 Megatron。通过自动监控和修复训练集群，在不中断的情况下对基础模型（FM）进行数周甚至数月的训练。

经济高效训练的优势

SageMaker AI 提供广泛的 GPU 和 CPU 以及诸如 AWS Trainium 和 AWS Inferentia 之类的 AWS 加速器，以实现大规模模型训练。您可以自动向上或向下扩展基础设施，从一个 GPU 扩展到数千个 GPU。

通过 SageMaker AI，您可以在 AWS 集群实例之间自动拆分模型和训练数据集，从而帮助您高效地扩展训练工作负载。其可帮助您优化 AWS 网络基础设施和集群拓扑的训练作业。您还可以使用经过优化的配方，以便从先进的性能中获益，在几分钟内快速开始训练并微调公开可用的生成式人工智能模型。该服务还优化了储存检查点的频率，以便通过配方来简化模型检查点，从而确保训练期间的开销最小。

SageMaker AI 可以通过调整数千种算法参数组合来自动调整您的模型，从而得出最准确的预测。使用调试和分析工具快速纠正性能问题并优化训练性能。

SageMaker AI 支持高效的机器学习实验，帮助您更轻松地跟踪机器学习模型迭代。通过可视化模型架构来识别和修复整合问题，提高模型训练性能。

大规模训练模型

完全托管式训练作业

SageMaker 训练作业为大型分布式基础模型训练提供了完全托管式用户体验，消除了基础设施管理方面无差别的繁重工作。SageMaker 训练作业会自动启动一个有弹性的分布式训练集群，监控基础设施并自动从故障中恢复，以确保顺畅的训练体验。训练完成后，SageMaker 将关闭集群，您需要按净训练时间付费。此外，借助 SageMaker 训练作业，您可以灵活地选择最适合个别工作负载的正确实例类型（例如，在 P5 集群上预训练大语言模型（LLM）或者在 p4d 实例上微调开源 LLM），以便进一步节省训练预算。此外，SagerMaker 训练作业还为具有不同技术专业知识水平和不同工作负载类型的机器学习团队提供一致的用户体验。

了解详情

SageMaker HyperPod

Amazon SageMaker HyperPod 是一种专用基础设施，可以高效地管理计算集群来扩展基础模型（FM）开发。它支持先进的模型训练技术、基础设施控制、性能优化和增强的模型可观测性。SageMaker HyperPod 预先配置了 SageMaker 分布式训练库，使您能够在 AWS 集群实例之间自动拆分模型和训练数据集，以帮助有效利用集群的计算和网络基础设施。它通过自动检测、诊断和恢复硬件故障来实现更具弹性的环境，使您能够连续数月不间断地训练基础模型，从而将训练时间缩短多达 40%。

了解详情

高性能分布式训练

SageMaker AI 通过在 AWS 加速器中自动拆分模型和训练数据集，可以更快地执行分布式训练。它可帮助您优化 AWS 网络基础设施和集群拓扑的训练作业。该服务还优化了储存检查点的频率，以便通过配方来简化模型检查点，从而确保训练期间的开销最小。

了解详情

高效地自定义生成式人工智能和机器学习模型

Amazon SageMaker AI 支持利用自定义数据集来自定义 Amazon 专有基础模型和公开发布的基础模型，无需从头开始对它们进行训练。各种技能组合的数据科学家与开发人员均可通过优化配方快速启动公开及专有生成式人工智能模型的训练和微调。每个配方都经过 AWS 测试，无需进行数周繁琐的模型配置测试即可实现前沿性能。借助这些配方，您可以微调 Llama、Mixtral、Mistral 等热门公开模型系列。此外，您还可以在 Amazon SageMaker AI 上针对业务特定使用案例，在模型训练的各个阶段使用一整套技术来自定义 Amazon Nova 基础模型，包括 Nova Micro、Nova Lite 和 Nova Pro。这些功能可作为即用型 SageMaker 方案提供，允许客户在整个模型生命周期中调整 Nova 模型，包括监督微调、对齐和预训练。

了解详情

用于交互和监控的内置工具

Amazon SageMaker 和 MLflow

将 MLflow 与 SageMaker 训练结合使用，可以捕获输入参数、配置和结果，帮助您快速识别适合您的使用案例的性能最佳的模型。通过 MLflow UI，您可以分析模型训练尝试，并十分轻松地注册候选模型，只需一个快速步骤即可投入生产。

了解详情

带有 TensorBoard 的 Amazon SageMaker

带有 TensorBoard 的 Amazon SageMaker 可帮助您通过可视化模型架构来识别和修复整合问题，例如验证损失未整合或梯度消失，从而节省开发时间。

了解详情

资源

博客

新增内容

Amazon SageMaker Experiments 现在支持使用常见图表类型来可视化模型训练结果

现在，SageMaker 模型并行功能的速度可提高 20%，而且代码改动更少

宣布推出 Amazon SageMaker 模型训练智能数据筛选功能预览版

Amazon SageMaker 自动模型调优功能现在支持通过上调限制来提高模型的准确性

宣布推出用于 Amazon SageMaker 模型训练的异构集群

开始使用 SageMaker 模型训练

定价

使用 Amazon SageMaker 探索地理空间机器学习，无需前期承诺或长期合同

了解详情

控制台

开始在 AWS 管理控制台中使用 Amazon SageMaker 构建地理空间机器学习

找到今天要查找的内容了吗？

请提供您的意见，以便我们改进网页内容的质量

Amazon SageMaker 模型训练

什么是 SageMaker 模型训练？

经济高效训练的优势

可实现大规模且经济高效的训练的托管式基础设施

高性能分布式训练

内置工具可实现最高精度和最低成本

用于交互和监控的内置工具

大规模训练模型

完全托管式训练作业

SageMaker HyperPod

高性能分布式训练

高效地自定义生成式人工智能和机器学习模型

用于交互和监控的内置工具

Amazon SageMaker 和 MLflow

带有 TensorBoard 的 Amazon SageMaker

资源

在 SageMaker AI 上使用模型并行加法和 Hugging Face 进行训练

使用 SageMaker AI 大规模训练机器学习模型

从 GitHub 存储库下载代码示例

查看我们为最常用的机器学习模型提供的最新基准

为您的 SageMaker 训练作业选择最佳的数据来源

在 SageMaker AI 上使用分片数据并行执行大规模训练

使用训练热池来加速训练

使用 SageMaker 异构集群提高性价比

新增内容

现在，SageMaker 模型并行功能的速度可提高 20%，而且代码改动更少

开始使用 SageMaker 模型训练

使用 Amazon SageMaker 探索地理空间机器学习，无需前期承诺或长期合同

开始在 AWS 管理控制台中使用 Amazon SageMaker 构建地理空间机器学习

找到今天要查找的内容了吗？

了解

资源

开发人员

帮助