Amazon SageMaker AI 现已支持对另外 12 种模型进行无服务器强化微调
Amazon SageMaker AI 现已支持对另外 12 种开放权重模型进行无服务器模型定制和强化微调,这使您无需预置或管理基础设施即可对这些模型进行微调和评估。最新支持的模型包括:gpt-oss-120b、Qwen2.5 72B Instruct、DeepSeek-R1-Distill-Llama-70B、Qwen3 14B、DeepSeek-R1-Distill-Qwen-14B、Qwen2.5 14B Instruct、DeepSeek-R1-Distill-Llama-8B、DeepSeek-R1-Distill-Qwen-7B、Qwen3 4B、Meta Llama 3.2 3B Instruct、Qwen3 1.7B 以及 DeepSeek-R1-Distill-Qwen-1.5B。通过此次扩展,您可以使用监督式微调(SFT)、直接偏好优化(DPO)以及强化微调(RFT)技术(包括 RLVR 和 RLAIF)来定制这些模型,并且仅需按实际使用量付费。
您可以使用强化微调技术让模型适配域特定的复杂推理任务,仅使用传统 SFT 等技术往往无法完成此类任务。借助 RLVR,您可以提供基于正确性的奖励信号,从而提升模型在代码生成、数学计算和结构化提取等可验证任务上的准确性。RLAIF 利用人工智能生成的反馈来引导模型行为,使其符合您的质量与安全偏好。这些技术适用于之前已支持的模型与新增模型,无需进行集群设置、容量规划,也无需具备分布式训练的专业知识。
这些模型和微调技术已在美国东部(弗吉尼亚州北部)、美国西部(俄勒冈州)、亚太地区(东京)和欧洲地区(爱尔兰)推出。要开始使用,请参阅 Amazon SageMaker AI 模型自定义产品页面,并访问 Amazon SageMaker AI 定价页面(Model Customization(模型自定义)选项卡)以查看模型、技术和价格的完整列表。