Amazon SageMaker AI lança aprendizado por reforço em vários turnos para personalização do modelo de agente de IA

Publicado: 3 de jun de 2026

O Amazon SageMaker AI agora oferece o aprendizado por reforço (RL) em vários turnos, uma nova técnica de personalização de modelos sem servidor para fazer ajuste fino de modelos em tarefas de agentes de várias etapas. A personalização de modelos do SageMaker AI permite adaptar os modelos de base com o uso de técnicas como ajuste fino supervisionado, aprendizado por reforço a partir de recompensas verificáveis (RLVR) e aprendizado por reforço com feedback de IA (RLAIF), sem o trabalho pesado indiferenciado de criar e operar sua própria infraestrutura de treinamento. O RL em vários turnos amplia isso ao treinar modelos em seu próprio ambiente de agente e recompensar a sequência completa de decisões que um agente toma em uma tarefa, o que ajuda você a especializar modelos menores e de menor custo para igualar ou exceder a precisão da tarefa de modelos maiores de uso geral em sua workload de destino.

Os modelos de treinamento que capacitam os agentes a concluir tarefas de várias etapas de forma confiável são complexos e demorados, e muitas vezes exigem uma infraestrutura personalizada que leva semanas para ser criada. A oferta de RL em vários turnos do SageMaker trata disso para você. Você pode conectar seu agente em execução no Amazon Bedrock AgentCore Runtime para hospedagem totalmente gerenciada ou executá‑lo no Amazon EKS, Amazon EC2, AWS Fargate ou em qualquer outra infraestrutura usando o framework de sua preferência. O SageMaker AI gerencia todo o ciclo de treinamento, incluindo a orquestração do lançamento, a coleta de trajetórias, o treinamento e o gerenciamento de pontos de verificação. O rastreamento MLflow integrado permite inspecionar as trajetórias, recompensas e traços do agente. Os trabalhos de avaliação informam métricas de recompensa, pass@k e trajetórias, que permitem comparar a performance de um modelo antes de implantá‑lo em um endpoint do SageMaker AI ou no Amazon Bedrock. O RL de vários turnos é executado como um recurso totalmente sem servidor, então você paga somente pelos tokens processados, sem necessidade de provisionar ou gerenciar infraestrutura.

O RL de várias turnos está disponível hoje por meio do SageMaker Studio e do SageMaker Python SDK como parte da personalização do modelo do Amazon SageMaker AI. Os modelos compatíveis incluem Qwen 3.6 27B, Nova Lite 2.0, GPT-OSS-20B e Gemma 31B em us-west-2 e Nova Lite 2.0, GPT-OSS-20B em us-east-1. Para começar a usar o aprendizado por reforço em vários turnos no SageMaker AI, consulte a documentação do Amazon SageMaker AI