Amazon SageMaker AI 现已支持对另外 12 种模型进行无服务器强化微调

发布于: 2026年3月25日

Amazon SageMaker AI 现已支持对另外 12 种开放权重模型进行无服务器模型定制和强化微调，这使您无需预置或管理基础设施即可对这些模型进行微调和评估。最新支持的模型包括：gpt-oss-120b、Qwen2.5 72B Instruct、DeepSeek-R1-Distill-Llama-70B、Qwen3 14B、DeepSeek-R1-Distill-Qwen-14B、Qwen2.5 14B Instruct、DeepSeek-R1-Distill-Llama-8B、DeepSeek-R1-Distill-Qwen-7B、Qwen3 4B、Meta Llama 3.2 3B Instruct、Qwen3 1.7B 以及 DeepSeek-R1-Distill-Qwen-1.5B。通过此次扩展，您可以使用监督式微调（SFT）、直接偏好优化（DPO）以及强化微调（RFT）技术（包括 RLVR 和 RLAIF）来定制这些模型，并且仅需按实际使用量付费。

您可以使用强化微调技术让模型适配域特定的复杂推理任务，仅使用传统 SFT 等技术往往无法完成此类任务。借助 RLVR，您可以提供基于正确性的奖励信号，从而提升模型在代码生成、数学计算和结构化提取等可验证任务上的准确性。RLAIF 利用人工智能生成的反馈来引导模型行为，使其符合您的质量与安全偏好。这些技术适用于之前已支持的模型与新增模型，无需进行集群设置、容量规划，也无需具备分布式训练的专业知识。

这些模型和微调技术已在美国东部（弗吉尼亚州北部）、美国西部（俄勒冈州）、亚太地区（东京）和欧洲地区（爱尔兰）推出。要开始使用，请参阅 Amazon SageMaker AI 模型自定义产品页面，并访问 Amazon SageMaker AI 定价页面（Model Customization（模型自定义）选项卡）以查看模型、技术和价格的完整列表。

Amazon SageMaker AI 现已支持对另外 12 种模型进行无服务器强化微调

了解

资源

开发人员

帮助