Amazon SageMaker AI lance un apprentissage par renforcement en plusieurs étapes pour la personnalisation des modèles d’agents d’IA

Publié le: 3 juin 2026

Amazon SageMaker AI propose désormais l’apprentissage par renforcement (RL) à plusieurs tour, une nouvelle technique de personnalisation de modèles sans serveur permettant de peaufiner les modèles sur des tâches agentiques en plusieurs étapes. La personnalisation des modèles d’IA de SageMaker vous permet d’adapter les modèles de fondation à l’aide de techniques telles que le peaufinage supervisé, l’apprentissage par renforcement à partir de récompenses vérifiables (RLVR) et l’apprentissage par renforcement à partir du retour d’information de l’IA (RLAIF), sans avoir à créer ni à exploiter votre propre infrastructure d’entraînement. L’offre RL à plusieurs tours étend cela en entraînant les modèles en fonction de votre propre environnement d’agent et en récompensant la séquence complète des décisions prises par un agent au cours d’une tâche, ce qui vous permet de spécialiser des modèles plus petits et moins coûteux pour égaler ou dépasser la précision des tâches des modèles généraux plus importants sur votre charge de travail cible.

Les modèles d’entraînement qui permettent aux agents d’effectuer de manière fiable des tâches en plusieurs étapes sont complexes et prennent beaucoup de temps, nécessitant souvent une infrastructure personnalisée dont la création prend des semaines. L’offre RL à plusieurs tours de SageMaker s’en charge pour vous. Vous pouvez connecter votre agent s’exécutant sur le service d’exécution Amazon Bedrock AgentCore pour un hébergement entièrement géré, ou sur Amazon EKS, Amazon EC2, AWS Fargate ou toute autre infrastructure utilisant le cadre de votre choix. SageMaker AI gère l’ensemble de la boucle d’entraînement, de l’orchestration du déploiement à la collecte des trajectoires, en passant par l’entraînement et la gestion des points de contrôle. Le suivi MLflow intégré vous permet d’inspecter les trajectoires, les récompenses et les traces des agents. Les tâches d’évaluation fournissent des indicateurs de récompense, de réussite, de trajectoire et vous permettent de comparer un modèle avant de le déployer sur un point de terminaison SageMaker AI ou Amazon Bedrock. La fonction RL à plusieurs tours s’exécute comme une fonctionnalité entièrement sans serveur, vous ne payez donc que pour les jetons traités, sans aucune infrastructure à provisionner ou à gérer.

La fonction RL à plusieurs tours est disponible dès aujourd’hui via SageMaker Studio et le kit SDK de SageMaker pour Python dans le cadre de la personnalisation du modèle d’Amazon SageMaker AI. Les modèles pris en charge incluent Qwen 3.6 27B, Nova Lite 2.0, GPT-OSS-20B et Gemma 31B dans us-west-2 et Nova Lite 2.0, GPT-OSS-20B dans us-east-1. Pour commencer à utiliser l’apprentissage par renforcement à plusieurs tours dans SageMaker AI, consultez la documentation relative à Amazon SageMaker AI