Publicado: Apr 23, 2024

A avaliação de modelos no Amazon Bedrock permite avaliar, comparar e selecionar os melhores modelos de base para seu caso de uso. O Amazon Bedrock oferece a opção entre avaliação automática e avaliação humana. Você pode usar a avaliação automática com algoritmos predefinidos para métricas, como precisão, robustez e toxicidade. Além disso, para essas métricas ou para as métricas subjetivas e personalizadas, como simpatia, estilo e alinhamento com a voz da marca, você pode configurar um fluxo de trabalho de avaliação humana com apenas alguns cliques. Os fluxos de trabalho de avaliação humana podem ser realizados por seus próprios funcionários ou uma equipe gerenciada pela AWS como revisores. A avaliação do modelo fornece conjuntos de dados selecionados integrados, ou você pode trazer seus próprios conjuntos de dados.

A interface interativa do Amazon Bedrock orienta você na avaliação do modelo. Basta escolher a avaliação humana ou automática, selecionar o tipo de tarefa e as métricas e carregar seu conjunto de dados de prompt. Em seguida, o Amazon Bedrock executa avaliações e gera um relatório, para que você possa entender facilmente a performance do modelo em relação às métricas selecionadas e escolher a correta para seu caso de uso. Usando esse relatório em conjunto com as métricas de custo e latência do playground do Amazon Bedrock, você pode selecionar o modelo com a compensação necessária de qualidade, custo e latência.

A avaliação do modelo no Amazon Bedrock agora está disponível nas regiões da AWS Leste dos EUA (N. da Virgínia) e Oeste dos EUA (Oregon). Para obter mais informações, consulte a tabela de regiões da AWS.

Para saber mais sobre a avaliação de modelos no Amazon Bedrock, consulte a página da Web sobre a experiência do desenvolvedor do Amazon Bedrock. Para começar a usá-la, faça login no Amazon Bedrock no Console de Gerenciamento da AWS ou use a API do Amazon Bedrock.