Amazon SageMaker AI führt Multi-Turn Reinforcement Learning für die Anpassung von KI-Agentenmodellen ein

Veröffentlicht am: 3. Juni 2026

Amazon SageMaker AI unterstützt jetzt Multi-Turn Reinforcement Learning (RL), ein neues Serverless-Modellanpassungsverfahren zur Feinabstimmung von Modellen für mehrstufige, agentische Aufgaben. Durch Anpassung des SageMaker-KI-Modells können Sie Basismodelle (FM) mithilfe von Techniken wie überwachter Feinabstimmung, Reinforcement Learning from Verifiable Rewards (RLVR) und Reinforcement Learning from AI Feedback (RLAIF) anpassen, ohne dass Sie eine eigene Trainingsinfrastruktur aufbauen und betreiben müssen. Multi-Turn RL erweitert dies, indem Modelle anhand Ihrer eigenen Agentenumgebung trainiert werden und die gesamte Abfolge von Entscheidungen, die ein Agent für eine Aufgabe trifft, belohnt wird. So können Sie kleinere, kostengünstigere Spezialmodelle trainieren, die dieselbe Genauigkeit für Ihre Ziel-Workload wie größere Allzweckmodelle erreichen oder diese gar übertreffen.

Trainingsmodelle, die Agenten in die Lage versetzen, mehrstufige Aufgaben zuverlässig zu erledigen, sind komplex und zeitaufwändig. Oft ist eine benutzerdefinierte Infrastruktur erforderlich, deren Aufbau Wochen in Anspruch nimmt. Das Multi-Turn RL-Angebot von SageMaker erledigt dies nun für Sie. Sie können Ihren Agenten verbinden, der auf Amazon Bedrock AgentCore Runtime vollständig gehostet ausgeführt wird, oder auf Amazon EKS, Amazon EC2, AWS Fargate oder einer beliebigen Infrastruktur mit dem Framework Ihrer Wahl. SageMaker AI verwaltet den gesamten Trainingsablauf, von der Rollout-Orchestrierung und Trajektorienerfassung bis hin zum Training und Checkpoint-Management. Mit dem integrierten MLFlow-Tracking können Sie die Trajektorien, Belohnungen und Ablaufverfolgungen von Agenten überprüfen. Bei Evaluierungsjobs werden Belohnungs-, pass@k- und Trajektorien-Metriken gemeldet, sodass Sie ein Modell vergleichen können, bevor Sie es auf einem SageMaker-AI-Endpunkt oder Amazon Bedrock bereitstellen. Multi-Turn RL wird vollständig serverless ausgeführt, sodass Sie nur für die verarbeiteten Token zahlen, ohne dass eine Infrastruktur bereitgestellt oder verwaltet werden muss.

Multi-Turn RL ist heute über SageMaker Studio und das SageMaker Python SDK als Teil der Amazon-SageMaker-AI-Modellanpassung verfügbar. Zu den unterstützten Modellen gehören Qwen 3.6 27B, Nova Lite 2.0, GPT-OSS-20B und Gemma 31B in us-west-2 sowie Nova Lite 2.0, GPT-OSS-20B in us-east-1. Um mit Multi-Turn Reinforcement Learning in SageMaker AI zu beginnen, lesen Sie die Dokumentation zu Amazon SageMaker AI