Pular para o conteúdo principal

Otimize em termos de custo, latência e precisão

Aumente a precisão e a performance enquanto controla os custos com ferramentas para avaliar e otimizar a IA em todas as etapas

Nunca comprometa a performance

O Amazon Bedrock ajuda você a encontrar o equilíbrio certo entre custo, latência e precisão para que suas aplicações de IA generativa funcionem de forma eficiente sem gastos excessivos. Com recursos como destilação de modelos, roteamento inteligente de prompts, armazenamento em cache de prompts e opções flexíveis de inferência, incluindo throughput sob demanda, em lote e provisionado, o Amazon Bedrock oferece o controle para otimizar todos os casos de uso e escalar com confiança. Caso esteja fornecendo workloads em tempo real ou em lote, o Amazon Bedrock permite que você crie sistemas de IA mais inteligentes, mais enxutos e mais econômicos.

Missing alt text value

Melhore sua performance. Reduza os custos.

Use o armazenamento em cache de prompts para reduzir os custos em até 90% e a latência em até 85% nos modelos compatíveis

Muitos casos de uso do modelos de base (FM) reutilizarão certas partes dos prompts (prefixos) nas chamadas de API. Com o armazenamento em cache de prompts, os modelos compatíveis permitem que você armazene esses prefixos de prompt repetidos entre as solicitações. Esse armazenamento em cache permite que o modelo ignore a recomputação dos prefixos correspondentes.

  • Melhore a performance para vários casos de uso
  • É possível armazenar em cache as partes relevantes dos prompts para economizar nos custos do token de entrada
  • Faça a integração com outros recursos do Amazon Bedrock para acelerar as tarefas de várias etapas ou os prompts mais longos do sistema para ajudar a refinar o comportamento dos agentes sem desacelerar suas respostas
Missing alt text value

Acelere a engenharia de prompts para aplicações de IA generativa

O Gerenciamento de Prompts do Amazon Bedrock simplifica a criação, a avaliação, o versionamento e a execução de prompts para permitir que os desenvolvedores obtenham as melhores respostas dos modelos de base para seus casos de uso.

  • O Gerenciamento de Prompts permite testar diferentes FMs, configurações, ferramentas e instruções
  • A otimização de prompts do Gerenciamento de Prompts reescreve automaticamente os prompts para melhorar a precisão e fornecer respostas mais concisas dos FMs
  • Teste prompts com os FMs mais recentes instantaneamente sem qualquer implantação.
  • Crie rapidamente aplicações de IA generativa e colabore na criação de prompts no Estúdio Unificado Amazon SageMaker
Missing alt text value

Maximize a performance a um custo menor com o roteamento inteligente de prompts

O Roteamento inteligente de prompts do Amazon Bedrock direciona prompts para diferentes FMs dentro de uma família de modelos, ajudando você a otimizar a qualidade das respostas e o custo. O Roteamento inteligente de prompts pode reduzir os custos em até 30% sem comprometer a precisão.

  • O Amazon Bedrock encaminhará dinamicamente as solicitações para o modelo que ele prevê que tenha a maior probabilidade de fornecer a resposta desejada com o menor custo.
  • Reduza seu esforço de desenvolvimento, teste diferentes modelos e crie fluxos de trabalho complexos de orquestração selecionando roteadores de prompts padrão fornecidos pelo Amazon Bedrock ou configurando seus próprios
  • Depure facilmente com solicitações totalmente rastreáveis
Missing alt text value

No Amazon Bedrock, os modelos destilados fornecem uma performance até 500% mais rápida e reduzem os custos em até 75%, apresentando menos de 2% de perda de precisão em casos de uso como a RAG.

É possível usar modelos menores, mais rápidos e mais econômicos, que fornecem uma precisão específica para cada caso de uso, sendo comparáveis aos modelos mais avançados do Amazon Bedrock.

Ajuste um modelo “aprendiz” com um modelo “instrutor” que tenha a precisão que você deseja.

  • Maximize a performance de modelos destilados com a síntese de dados proprietários
  • Reduza os custos incorporando seus dados de produção. Com a destilação de modelos, você pode fornecer prompts e, então, usá-los para gerar respostas sintéticas e ajustar os modelos aprendizes.
  • Aumente a precisão da previsão de chamadas de funções para agentes. Permita que modelos menores prevejam chamadas de funções com precisão para ajudar a proporcionar tempos de resposta substancialmente mais rápidos e custos operacionais mais baixos
Missing alt text value