Amazon Bedrock introduce i livelli di servizio di inferenza Priority e Flex
Oggi Amazon Bedrock introduce due nuovi livelli di servizio di inferenza per ottimizzare costi e prestazioni in base ai diversi carichi di lavoro IA. Il nuovo livello Flex offre prezzi competitivi per applicazioni senza vincoli temporali, come la valutazione di modelli e il riepilogo di contenuti, mentre il livello Priority garantisce prestazioni superiori ed elaborazione prioritaria per applicazioni di importanza essenziale. Per la maggior parte dei modelli che supportano il livello Priority è possibile ottenere una riduzione fino al 25% della latenza in termini di token di output al secondo (OTPS) rispetto al livello standard. I nuovi livelli vanno ad affiancare l'attuale livello Standard, pensato per le applicazioni IA di utilizzo quotidiano che richiedono prestazioni affidabili e costanti.
Questi livelli di servizio rispondono alle principali sfide che le organizzazioni incontrano quando si implementa l'IA su larga scala. Il livello Flex è progettato per carichi di lavoro non interattivi in grado di tollerare latenze superiori, risultando ideale per attività quali valutazione di modelli, sintesi di contenuti, etichettatura e annotazione e flussi di lavoro agentici multifase, con un prezzo ridotto rispetto al livello Standard. Nei momenti di picco della domanda il livello Flex presenta una priorità di elaborazione ridotta rispetto al livello Standard. Il livello Priority risulta ideale per applicazioni di importanza essenziale, interazioni in tempo reale con gli utenti finali ed esperienze interattive che richiedono risposte rapide e consistenti. Nei momenti di picco della domanda il livello Priority garantisce priorità di elaborazione rispetto agli altri livelli, comportando tuttavia un costo maggiorato. Questi nuovi livelli di servizio sono ora disponibili per una vasta gamma di principali modelli di fondazione, tra cui OpenAI (gpt-oss-20b, gpt-oss-120b), DeepSeek (DeepSeek V3.1), Qwen3 (Coder-480B-A35B-Instruct, Coder-30B-A3B-Instruct, 32B dense, Qwen3-235B-A22B-2507) e Amazon Nova (Nova Pro e Nova Premier). Grazie a queste nuove opzioni Amazon Bedrock aiuta a ottenere un maggiore controllo sul bilanciamento tra efficienza dei costi e requisiti di prestazioni, permettendo di scalare i carichi di lavoro IA in modo economicamente vantaggioso e garantendo al contempo esperienze utente ottimali per le applicazioni più critiche.
Per ulteriori informazioni sulle regioni AWS in cui sono disponibili i livelli di servizio di inferenza Priority e Flex di Amazon Bedrock, consulta la tabella delle regioni AWS.
Scopri di più sui livelli di servizio nel nostro blog News e consultando la nostra documentazione.