Atendentes, fluxos e bases de conhecimento do Amazon Bedrock já oferecem suporte a modelos otimizados para latência
Os atendentes, fluxos e bases de conhecimento do Amazon Bedrock agora oferecem suporte para os modelos recentemente anunciados, em versão prévia e otimizados para latência, por meio do SDK. Esse aprimoramento traz tempos de resposta mais rápidos e maior capacidade de resposta às aplicações de IA criadas com as Ferramentas do Amazon Bedrock. Atualmente, essa otimização está disponível para o modelo Claude 3.5 Haiku da Anthropic e os modelos Llama 3.1 405B e 70B da Meta, oferecendo latência reduzida em comparação aos modelos padrão sem comprometer a precisão.
Essa atualização é particularmente benéfica para clientes que desenvolvem aplicações sensíveis à latência, como chatbots de atendimento ao cliente em tempo real e assistentes de codificação interativos. Usando chips de IA com propósito específico, como o AWS Trainium2, e otimizações avançadas de software no Amazon Bedrock, os clientes agora podem acessar mais opções para otimizar sua inferência para casos de uso específicos. É importante ressaltar que esses recursos podem ser integrados imediatamente às aplicações existentes sem configuração adicional ou ajuste fino do modelo, resultando em performance aprimorada e tempos de resposta mais rápidos.
O suporte à inferência com latência otimizada para atendentes, fluxos e bases de conhecimento do Amazon Bedrock está disponível na região Leste dos EUA (Ohio) por meio da inferência entre regiões. Os clientes podem acessar esses novos recursos por meio do SDK do Amazon Bedrock por meio de uma configuração de runtime, permitindo que eles incorporem programaticamente esses modelos otimizados em seus fluxos de trabalho e aplicações.
Para saber mais sobre o Amazon Bedrock e seus recursos, incluindo esse novo suporte à inferência otimizada para latência, acesse a página do produto Amazon Bedrock, a página de preços e a documentação.