Amazon Bedrock 强化微调新增了对具有 OpenAI 兼容 API 的开放权重模型的支持
Amazon Bedrock 现已将强化微调(RFT)支持扩展到常见的开放权重模型(包括 OpenAI GPT-OSS 和 Qwen 模型),并引入了与 OpenAI 兼容的微调 API。这些功能使开发人员能够更轻松地提高开放权重模型的准确性,而无需深厚的机器学习专业知识或大量的标注数据。Amazon Bedrock 中的强化微调可自动执行端到端的定制工作流程,使模型能够使用少量提示词(而非传统的大型训练数据集)从多个可能响应的反馈中学习。强化微调使客户能够在保持高质量的同时,使用更小、更快、更具成本效益的模型变体。
组织通常难以调整基础模型以满足其独特的业务需求,这迫使他们在性能有限的通用模型和需要专门基础设施和专业知识的复杂、昂贵的定制管道之间做出权衡。Amazon Bedrock 通过提供完全托管、安全的强化微调体验,消除了这种复杂性。客户可以使用可验证的基于规则的评分器或基于 AI 的评判模型来定义奖励函数,其中内置模板既适用于代码生成、数学推理等客观任务,也适用于指令遵循、对话质量等主观任务。在训练过程中,客户可以使用 AWS Lambda 函数实现自定义评分逻辑,并访问中间模型检查点来评估、调试和选择性能最佳的模型,从而提高迭代速度和训练效率。在整个定制过程中,所有专有数据都保留在 AWS 安全、受管控的环境中。
本次发布时支持的模型包括:qwen.qwen3-32b 和 openai.gpt-oss-20b。微调完成后,客户可以立即使用微调后的模型,通过 Amazon Bedrock 兼容 OpenAI 的 API(响应 API 和聊天完成 API)进行按需推理,无需任何额外的部署步骤。要了解更多信息,请参阅 Amazon Bedrock 文档。