Amazon SageMaker AI lancia l'apprendimento per rinforzo a più turni per la personalizzazione dei modelli di agenti IA

Inserito il: 3 giu 2026

Amazon SageMaker AI offre ora l'apprendimento per rinforzo (RL) a più turni, una nuova tecnica di personalizzazione dei modelli serverless per l'ottimizzazione dei modelli su attività agentiche in più fasi. La personalizzazione dei modelli di SageMaker AI permette di adattare i modelli di base utilizzando tecniche quali il fine-tuning supervisionato, l'apprendimento per rinforzo da ricompense verificabili (RLVR) e l'apprendimento per rinforzo dal feedback dell'IA (RLAIF), senza l'onere indifferenziato di dover creare e gestire la propria infrastruttura di addestramento. L'apprendimento per rinforzo a più turni estende questa capacità addestrando i modelli all'interno del proprio ambiente di agenti e premiando l'intera sequenza di decisioni prese da un agente nel corso di un'attività; ciò consente di specializzare modelli più piccoli e a costi ridotti affinché raggiungano o superino l'accuratezza delle attività dei modelli generici più grandi sul carico di lavoro di destinazione.

L'addestramento dei modelli che alimentano gli agenti per completare in modo affidabile attività in più fasi è complesso e richiede molto tempo, richiedendo spesso infrastrutture personalizzate la cui creazione può richiedere settimane. L'offerta di apprendimento per rinforzo a più turni di SageMaker gestisce autonomamente queste operazioni. È possibile connettere il proprio agente in esecuzione su Amazon Bedrock AgentCore Runtime per un hosting completamente gestito, oppure su Amazon EKS, Amazon EC2, AWS Fargate o qualsiasi altra infrastruttura utilizzando il framework di propria scelta. SageMaker AI gestisce l'intero ciclo di addestramento, dall'orchestrazione del rollout e dalla raccolta delle traiettorie fino all'addestramento e alla gestione dei checkpoint. Il monitoraggio MLflow integrato consente di esaminare le traiettorie, le ricompense e le tracce degli agenti. I processi di valutazione restituiscono i parametri relativi a ricompense, pass@k e traiettorie, in modo da poter effettuare un benchmark del modello prima di distribuirlo su un endpoint SageMaker AI o su Amazon Bedrock. L'apprendimento per rinforzo a più turni viene eseguito come funzionalità completamente serverless, pertanto si pagano solo i token elaborati, senza alcuna infrastruttura da allocare o gestire.

L'apprendimento per rinforzo a più turni è disponibile da oggi tramite SageMaker Studio e il SageMaker Python SDK come parte delle funzionalità di personalizzazione dei modelli di Amazon SageMaker AI. I modelli supportati includono Qwen 3.6 27B, Nova Lite 2.0, GPT-OSS-20B e Gemma 31B nella regione us-west-2, e Nova Lite 2.0, GPT-OSS-20B nella regione us-east-1. Per iniziare a utilizzare l'apprendimento per rinforzo a più turni in SageMaker AI, consulta la documentazione di Amazon SageMaker AI