Amazon SageMaker AI ora supporta l’inferenza basata sulla capacità con fallback automatico delle istanze

Inserito il: 1 mag 2026

Gli endpoint di inferenza di Amazon SageMaker AI ora supportano il provisioning flessibile su un elenco prioritario di tipi di istanza. Quando il tipo di istanza preferito non dispone di capacità sufficiente, SageMaker AI esegue automaticamente il provisioning utilizzando la successiva opzione disponibile nell’elenco, mantenendo la creazione e la scalabilità automatica degli endpoint senza interruzioni e senza intervento manuale. Ciò offre ai team che distribuiscono modelli AI/ML in produzione la resilienza necessaria per gestire in modo efficiente i vincoli di capacità, garantendo che gli endpoint vengano avviati in modo affidabile e scalino su richiesta.

Con il supporto del pool di istanze, è possibile definire un elenco prioritario di tipi di istanza e SageMaker AI esegue automaticamente il provisioning della capacità scorrendo l’elenco in ordine. Questo si applica alla creazione, agli aggiornamenti e alla scalabilità degli endpoint. In fase di riduzione, SageMaker AI rimuove prima le istanze con priorità più bassa, preservando l’infrastruttura preferita durante la contrazione della flotta. Questa funzionalità supporta endpoint Single Model, endpoint basati su InferenceComponent e endpoint di inferenza asincrona, inclusi quelli che scalano a zero, in cui SageMaker AI effettua il provisioning dal pool disponibile con priorità più alta durante la risalita della scalabilità.

Poiché i tipi di istanza di fallback differiscono per memoria GPU e capacità di calcolo, è possibile specificare un modello ottimizzato diverso per ciascun tipo di istanza nell’elenco delle priorità. È possibile preparare questi artefatti manualmente oppure utilizzare i consigli di inferenza di SageMaker AI, che generano automaticamente configurazioni ottimizzate specifiche per l’hardware per ciascun tipo di istanza. Inoltre, le metriche CloudWatch per tipo di istanza offrono visibilità su latenza, throughput, utilizzo della GPU e numero di istanze per tipo di hardware all’interno di un singolo endpoint.


Questa funzionalità è disponibile nelle seguenti regioni: Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (Oregon), Canada (Centrale), Sud America (San Paolo), Europa (Irlanda), Europa (Londra), Europa (Francoforte), Europa (Stoccolma), Europa (Zurigo), Asia Pacifico (Tokyo), Asia Pacifico (Seoul), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacifico (Mumbai) e Asia Pacifico (Giacarta). Per saperne di più, consulta la documentazione di Amazon SageMaker AI.