Amazon Bedrock ora supporta l'inferenza in batch per i modelli Claude Sonnet 4 di Anthropic e GPT-OSS di OpenAI
I modelli Claude Sonnet 4 di Anthropic e GPT-OSS 120B e 20B di OpenAI sono ora disponibili per l'inferenza in batch in Amazon Bedrock. L'inferenza in batch consente di eseguire più richieste di inferenza in modo asincrono, migliorando le prestazioni su set di dati di grandi dimensioni al 50% del prezzo delle inferenze on-demand. Per l'inferenza in batch Amazon Bedrock offre modelli di fondazione (FM) selezionati dei principali fornitori di IA come Anthropic, OpenAI, Meta e Amazon, rendendo più semplice ed economico l'elaborazione di carichi di lavoro ad alto volume.
Grazie all'inferenza in batch sui modelli Claude Sonnet 4 e OpenAI GPT-OSS, è possibile elaborare set di dati di grandi dimensioni su larga scala e con costi inferiori per scenari come l'analisi di documenti e feedback dei clienti, la generazione di contenuti in blocco (ad esempio, testi di marketing, descrizioni di prodotti), le valutazioni di prompt o output su larga scala, il riepilogo automatico di basi di conoscenza e archivi, la categorizzazione massiva di ticket di supporto o email e l'estrazione di dati strutturati da un testo non strutturato. Abbiamo ottimizzato la nostra offerta di inferenza in batch per fornire un throughput complessivo del batch più elevato su questi nuovi modelli rispetto a quelli precedenti. Inoltre, è ora possibile monitorare il progresso dei carichi di lavoro dell'inferenza in batch a livello di account AWS con le metriche di Amazon CloudWatch. Queste metriche comprendono per tutti i modelli: il numero totale di record in sospeso, i record processati e i token al minuto. Inoltre, per i modelli Claude sono disponibili anche i token in attesa di elaborazione.
Per saperne di più sull'inferenza in batch in Amazon Bedrock, consulta la documentazione sull'inferenza in batch. Puoi consultare la pagina Regioni e modelli supportati per l'inferenza in batch per maggiori dettagli sui modelli supportati e seguire il riferimento dell'API di Amazon Bedrock per iniziare con l'inferenza in batch.