Apresentação da inferência otimizada para latência para modelos de base no Amazon Bedrock

Publicado: 2 de dez de 2024

A inferência com latência otimizada para modelos de base no Amazon Bedrock está agora disponível em versão prévia pública, oferecendo tempos de resposta mais rápidos e melhor capacidade de resposta para aplicações de IA. Atualmente, essas novas opções de inferência oferecem suporte ao modelo Claude 3.5 Haiku da Anthropic e aos modelos Llama 3.1 405B e 70B da Meta, oferecendo latência reduzida em comparação aos modelos padrão sem comprometer a precisão. Conforme verificado pela Anthropic, com inferência otimizada para latência no Amazon Bedrock, o Claude 3.5 Haiku é executado de maneira mais rápida na AWS do que em qualquer outro lugar. Além disso, com inferência otimizada para latência no Bedrock, o Llama 3.1 405B e 70B é executado de maneira mais rápida na AWS do que qualquer outro grande provedor de nuvem.

À medida que mais clientes movem suas aplicações de IA generativa para produção, otimizar a experiência do usuário final se torna crucial, especialmente para aplicações sensíveis à latência, como chatbots de atendimento ao cliente em tempo real e assistentes de codificação interativos. Usando chips de IA com propósito específico, como o AWS Trainium2, e otimizações avançadas de software no Amazon Bedrock, os clientes podem acessar mais opções para otimizar sua inferência para um caso de uso específico. O acesso a esses recursos não requer configuração adicional ou ajuste fino do modelo, o que permite o aprimoramento imediato das aplicações existentes com tempos de resposta mais rápidos.

A inferência otimizada para latência está disponível para o Claude 3.5 Haiku da Anthropic e o Llama 3.1 405B e 70B da Meta na região Leste dos EUA (Ohio) por meio de inferência entre regiões. Para começar a usá-la, acesse o console do Amazon Bedrock. Para obter mais informações sobre o Amazon Bedrock e seus recursos, acesse a página do produto Amazon Bedrock, a página de preços e a documentação.

Selecione suas preferências de cookies

Apresentação da inferência otimizada para latência para modelos de base no Amazon Bedrock

Encerramento do suporte para o Internet Explorer