Amazon SageMaker IA introduce raccomandazioni ottimizzate per l’inferenza di IA generativa

Inserito il: 21 apr 2026

Amazon SageMaker IA ora supporta le raccomandazioni di inferenza, una nuova funzionalità che elimina l’ottimizzazione manuale e il benchmarking per fornire prestazioni di inferenza ottimali. Fornendo configurazioni di distribuzione convalidate e ottimali con metriche prestazionali, SageMaker IA accelera il percorso verso la produzione e consente agli sviluppatori di modelli di concentrarsi sulla creazione di modelli accurati, anziché sulla gestione dell’infrastruttura.

I clienti utilizzano i propri modelli di IA generativa, definiscono i modelli di traffico attesi e specificano un obiettivo prestazionale (ottimizzazione dei costi, riduzione della latenza o massimizzazione del throughput). SageMaker IA analizza quindi l’architettura del modello e applica ottimizzazioni allineate a tale obiettivo su più tipi di istanza, confrontando ogni configurazione su infrastruttura GPU reale utilizzando NVIDIA AIPerf. Valutando più tipi di istanza, i clienti possono selezionare l’opzione con il miglior rapporto prezzo/prestazioni per il proprio carico di lavoro. Il risultato è un insieme di configurazioni pronte per la distribuzione con metriche validate, tra cui time to first token, latenza tra token, percentili di latenza delle richieste, throughput e proiezioni dei costi.

 La funzionalità è disponibile oggi in sette Regioni AWS: Stati Uniti orientali (Virginia settentrionale), Stati Uniti occidentali (Oregon), Stati Uniti orientali (Ohio), Asia Pacifico (Tokyo), Europa (Irlanda), Asia Pacifico (Singapore) ed Europa (Francoforte). Per saperne di più, consulta la documentazione di SageMaker AI.