Amazon Bedrock apresenta os níveis de serviço de inferência Priority e Flex
Hoje, o Amazon Bedrock apresenta dois novos níveis de serviço de inferência para otimizar custos e performance para diferentes workloads de IA. O novo nível Flex (Flexível) oferece preços econômicos para aplicações que não exigem muito tempo, como avaliações de modelos e resumo de conteúdo, enquanto o nível Priority (Prioritário) oferece performance premium e processamento preferencial para aplicações de missão crítica. Para a maioria dos modelos compatíveis com o nível Priority, os clientes podem obter uma latência de tokens de saída por segundo (OTPS) até 25% melhor em comparação com o nível padrão. Eles se juntam ao nível Standard (Padrão) existente para aplicações diárias de IA com performance confiável.
Esses níveis de serviço abordam os principais desafios que as organizações enfrentam ao implantar a IA em grande escala. O nível Flex foi projetado para workloads não interativas que podem tolerar latências mais longas, o que o torna ideal para avaliações de modelos, resumo de conteúdo, rotulagem e anotação e fluxo de trabalho de agente em várias etapas, e tem um preço reduzido em relação ao nível Standard. Durante períodos de alta demanda, as solicitações Flex recebem menor prioridade em relação ao nível Standard. O nível Priority é ideal para aplicações de missão crítica, interações com o usuário final em tempo real e experiências interativas nas quais respostas rápidas e consistentes são essenciais. Durante períodos de alta demanda, as solicitações prioritárias recebem prioridade de processamento, a um preço premium, em relação a outros níveis de serviço. Esses novos níveis de serviço estão disponíveis hoje para uma variedade de modelos de base líderes, incluindo OpenAI (gpt-oss-20b, gpt-oss-120b), DeepSeek (DeepSeek V3.1), Qwen3 (Coder-480B-A35B-Instruct, Coder-30B-A3B-Instruct, 32B dense, Qwen3-235B-A22B-2507) e Amazon Nova (Nova Pro e Nova Premier). Com essas novas opções, o Amazon Bedrock ajuda os clientes a obter maior controle sobre o equilíbrio entre a eficiência de custos e os requisitos de performance, permitindo que eles escalem workloads de IA de forma econômica e garantindo experiências de usuário ideais para suas aplicações mais críticas.
Para obter mais informações sobre as regiões da AWS nas quais os níveis de serviços de inferência Priority e Flex do Amazon Bedrock estão disponíveis, consulte a tabela de regiões da AWS.
Saiba mais sobre os níveis de serviço em nosso blog de notícias e na documentação.