Amazon SageMaker AI 推出適用於 AI 代理程式模型自訂的多輪強化學習

張貼日期: 2026年6月3日

Amazon SageMaker AI 現在提供多輪強化學習 (RL),這是一種新的無伺服器模型自訂技術,可針對多步驟代理式任務微調模型。 SageMaker AI 模型自訂可讓您使用監督式微調、可驗證獎勵的強化學習 (RLVR) 以及 AI 意見回饋的強化學習 (RLAIF) 等技術來調整基礎模型,而不需要承擔建置和操作自有訓練基礎架構的非差異化繁重作業。多輪 RL 可進一步延伸這項功能,藉由針對您自己的代理程式環境訓練模型,並獎勵代理程式在任務中所作出的完整決策順序,協助您專門化較小、更低成本的模型,以達到或超過較大通用模型在目標工作負載中的任務準確度。

為代理程式提供可靠地完成多步驟工作的訓練模型,是一項十分複雜且耗時的作業,而且通常需要花費數週才能建置的自訂基礎架構。SageMaker 的多輪 RL 產品可為您處理這項問題。您能夠與在 Amazon Bedrock AgentCore 執行時期上執行的代理程式連線,以進行完全受管理的託管,或與在 Amazon EKS、Amazon EC2、AWS Fargate 或任何使用您所選架構的基礎架構上執行的代理程式連線。SageMaker AI 會管理完整的訓練循環,範圍從推出協調和軌跡收集到訓練和檢查點管理。內建 MLflow 追蹤功能能夠讓您檢查代理程式的軌跡、獎勵和追蹤。評估工作會報告獎勵、pass@k 和軌跡指標,以便在將模型部署至 SageMaker AI 端點或 Amazon Bedrock 之前進行基準測試。多輪 RL 會作為完全無伺服器功能執行,因此您只需為處理的字元付費,而無需用於佈建或管理的基礎架構。

多輪 RL 現在能夠在 Amazon SageMaker AI 模型自訂中透過 SageMaker Studio 和 SageMaker Python SDK 提供。 支持的模型包括 us-west-2 中的 Qwen 3.6 27B、Nova Lite 2.0、GPT-OSS-20B 和 Gemma 31B,以及 us-east-1 中的 Nova Lite 2.0、GPT-OSS-20B。若要著手使用 SageMaker AI 中的多輪強化學習,請瀏覽 Amazon SageMaker AI 文件。