Amazon Bedrock já oferece suporte à inferência em lote para os modelos Anthropic Claude Sonnet 4 e OpenAI GPT-OSS

Publicado: 18 de ago de 2025

Agora, os modelos Claude Sonnet 4 da Anthropic e GPT-OSS 120B e 20B da OpenAI estão disponíveis para inferência em lote no Amazon Bedrock. Com a inferência em lote, você pode executar várias solicitações de inferência de forma assíncrona, melhorando a performance em grandes conjuntos de dados com 50% do preço da inferência sob demanda. O Amazon Bedrock oferece modelos de base (FMs) selecionados dos principais fornecedores de IA, como Anthropic, OpenAI, Meta e Amazon, para inferência em lote, tornando mais fácil e econômico processar workloads de alto volume.

Com a inferência em lote nos modelos Claude Sonnet 4 e OpenAI GPT-OSS, você pode processar grandes conjuntos de dados para cenários como análise de documentos e feedback de clientes, geração de conteúdo em massa (por exemplo, textos de marketing, descrições de produtos), avaliações de prompts ou resultados em grande escala, resumo automatizado de bases de conhecimento e arquivos, categorização em massa de tíquetes ou e-mails de suporte e extração de dados estruturados de texto não estruturado, tudo isso em grande escala e com custos mais baixos. Otimizamos nossa oferta de lotes para oferecer maior throughput geral de lotes nesses modelos mais novos em comparação com os anteriores. Além disso, agora você pode acompanhar o progresso de workloads em lote no nível de conta da AWS com as métricas do Amazon CloudWatch. Para todos os modelos, essas métricas incluem o total de registros pendentes, registros processados e tokens por minuto e, para os modelos Claude, também estão incluídos tokens pendentes de processamento.

Para saber mais sobre a inferência em lote no Amazon Bedrock, acesse a documentação sobre inferência em lote. Você pode acessar a página Regiões e modelos compatíveis para inferência em lote para obter mais detalhes sobre os modelos com suporte e seguir a referência de API do Amazon Bedrock para começar a usar a inferência em lote.