Amazon SageMaker AI 推出用于 AI 智能体模型定制的多轮强化学习功能

发布于: 2026年6月3日

Amazon SageMaker AI 现已提供多轮强化学习(RL)功能,这是一种新的无服务器模型定制技术,可用于在多步骤、智能体任务中对模型进行微调。 借助 SageMaker AI 模型定制功能,您可以使用有监督微调、基于可验证奖励的强化学习(RLVR)以及基于 AI 反馈的强化学习(RLAIF)等技术来调整基础模型,从而消除构建并运营自有训练基础设施所需的无差别繁重工作。多轮强化学习功能在此基础上进行了扩展:基于您自己的智能体环境来训练模型,并针对智能体在整个任务过程中所做出的一系列完整决策给予奖励;这有助于您对更小、成本更低的模型进行专业化定制,使其在目标工作负载上的任务精度达到、甚至超过更大的通用模型。

训练可助力智能体可靠地完成多步骤任务的模型是一个复杂且耗时的过程,往往需要花费数周时间来构建定制基础设施。SageMaker 的多轮强化学习功能可助您完成此过程。您可以连接在 Amazon Bedrock AgentCore 运行时上运行的智能体来实现完全托管,也可以连接在 Amazon EKS、Amazon EC2、AWS Fargate 或任何使用所选框架的基础设施上运行的智能体。SageMaker AI 可管理整个训练循环,从部署编排和轨迹收集到训练和检查点管理。内置的 MLflow 跟踪功能可让您检查智能体轨迹、奖励和追踪记录。评估作业将报告奖励、pass@k 和轨迹指标,以便您能够在将模型部署到 SageMaker AI 端点或 Amazon Bedrock 之前对其进行基准测试。多轮强化学习是作为一种完全无服务器的功能运行,您只需为已处理的 Token 付费,而无需预置或管理任何基础设施。

多轮强化学习功能现已作为 Amazon SageMaker AI 模型定制的一部分通过 SageMaker Studio 和 SageMaker Python SDK 提供。 支持的模型包括 us-west-2 区域内推出的 Qwen 3.6 27B、Nova Lite 2.0、GPT-OSS-20B 和 Gemma 31B,以及 us-east-1 区域内推出的 Nova Lite 2.0 和 GPT-OSS-20B。要在 SageMaker AI 中开始使用多轮强化学习功能,请访问 Amazon SageMaker AI 文档。