LLM como juiz da avaliação de modelos do Amazon Bedrock já está disponível

Publicado: 20 de mar de 2025

Agora, o recurso LLM como juiz da avaliação de modelo do Amazon Bedrock está disponível para o público em geral. A avaliação de modelo do Amazon Bedrock permite avaliar, comparar e selecionar os melhores modelos para seu caso de uso. Você pode escolher um LLM como juiz dentre os vários disponíveis no Bedrock para garantir que você tenha a combinação certa de modelos de avaliadores e modelos que estão sendo avaliados. Também é possível selecionar métricas de qualidade, como exatidão, integridade e estilo e tom profissionais, bem como métricas de IA responsável, como nocividade e recusa de resposta. Você pode avaliar todos os modelos disponíveis no Amazon Bedrock, incluindo modelos com tecnologia sem servidor, modelos do Bedrock Marketplace compatíveis com a API Converse, modelos personalizados e destilados, modelos importados e roteadores de modelos. Além disso, você pode comparar os resultados dos trabalhos de avaliação.

*Novo: mais flexibilidade* Hoje, você pode avaliar qualquer modelo ou sistema hospedado em qualquer lugar trazendo suas próprias respostas de inferência já recuperadas para o conjunto de dados de prompt de entrada para o trabalho de avaliação (“traga suas próprias respostas de inferência”). Essas respostas podem ser de um modelo do Amazon Bedrock ou de qualquer modelo ou aplicação hospedada fora do Amazon Bedrock, permitindo que você ignore a chamada de um modelo do Amazon Bedrock no trabalho de avaliação e incorpore todas as etapas intermediárias da aplicação nas respostas finais.

Com o LLM como juiz, você pode obter uma qualidade de avaliação semelhante à humana a um custo menor, economizando semanas de tempo.

Para saber mais, acesse a página e a documentação de avaliações do Amazon Bedrock. Para começar a usá-lo, faça login no console da AWS ou use as APIs do Amazon Bedrock.