Amazon SageMaker AI lanza el aprendizaje por refuerzo en varias interacciones para la personalización de modelos de agentes de IA

Publicado en: 3 de jun de 2026

Amazon SageMaker AI ahora ofrece aprendizaje por refuerzo (RL) en varias interacciones, una nueva técnica de personalización de modelos sin servidor para refinar los modelos en tareas agénticas de varios pasos. La personalización de los modelos de IA de SageMaker le permite adaptar los modelos básicos mediante técnicas como el refinamiento detallado supervisado, el aprendizaje por refuerzo a partir de recompensas verificables (RLVR) y el aprendizaje por refuerzo a partir de los comentarios de la IA (RLAIF), sin la pesada carga indiferenciada de crear y operar su propia infraestructura de entrenamiento. El RL en varias interacciones amplía este objetivo al entrenar a los modelos en función de su propio entorno de agentes y recompensar la secuencia completa de decisiones que un agente toma en una tarea, lo que lo ayuda a especializar modelos más pequeños y de menor costo para igualar o superar la precisión de las tareas de los modelos de uso general más grandes en su carga de trabajo objetivo.

Los modelos de entrenamiento que permiten a los agentes completar de manera confiable tareas de varios pasos son complejos y requieren mucho tiempo, y a menudo requieren una infraestructura personalizada que tarda semanas en crearse. La oferta RL en varias interacciones de SageMaker se encarga de esto por usted. Puede conectar su agente que se ejecuta en Amazon Bedrock AgentCore Runtime para un alojamiento completamente administrado, o en Amazon EKS, Amazon EC2, AWS Fargate o cualquier infraestructura que utilice el marco que elija. SageMaker AI administra todo el ciclo de entrenamiento, desde la orquestación del despliegue y la recopilación de trayectorias hasta la administración del entrenamiento y los puntos de control. El seguimiento integrado de MLFlow le permite inspeccionar las trayectorias, las recompensas y el seguimiento de los agentes. Los trabajos de evaluación informan sobre las métricas de recompensa, pass@k y trayectoria para que pueda comparar un modelo antes de implementarlo en un punto de conexión de SageMaker AI o Amazon Bedrock. El RL en varias interacciones funciona como una capacidad totalmente sin servidor, por lo que solo paga por los tokens procesados, sin infraestructura que aprovisionar o administrar.

La RL en varias interacciones ya está disponible a través de SageMaker Studio y el SDK de Python de SageMaker como parte de la personalización del modelo de Amazon SageMaker AI. Los modelos compatibles incluyen Qwen 3.6 27B, Nova Lite 2.0, GPT-OSS-20B y Gemma 31B en us-west-2, y Nova Lite 2.0 y GPT-OSS-20B en us-east-1. Para comenzar con el aprendizaje por refuerzo en varias interacciones en SageMaker AI, consulte la documentación de Amazon SageMaker AI