Avaliação de modelos do Amazon Bedrock já inclui LLM como juiz (pré-visualização)

Publicado: 1 de dez de 2024

A avaliação de modelos do Amazon Bedrock permite avaliar, comparar e selecionar os melhores modelos de base para seu caso de uso. Agora, você pode usar um novo recurso de avaliação: o LLM como juiz em pré-visualização. Isso permite que você escolha um LLM como juiz para garantir que você tenha a combinação certa de modelos de avaliador e modelos em avaliação. Você pode escolher entre vários LLMs de juiz disponíveis no Amazon Bedrock. Você também pode selecionar métricas de qualidade selecionadas, como exatidão, integridade e estilo e tom profissionais, bem como métricas de IA responsável, como nocividade e recusa de resposta. Além disso, você já pode trazer seu próprio conjunto de dados de prompt para garantir uma avaliação personalizada dos seus dados e comparar os resultados dos trabalhos de avaliação para acelerar a tomada de decisões.

Anteriormente, você podia escolher entre avaliação de modelos baseada em humanos e avaliação automática com correspondência exata de strings e outras métricas tradicionais de PLN. Esses métodos, embora rápidos, não ofereciam uma forte correlação com avaliadores humanos. Agora, com o LLM como juiz, você pode obter uma qualidade de avaliação semelhante à humana a um custo muito menor do que as avaliações completas baseadas em humanos, economizando semanas de tempo. Você pode usar métricas incorporadas para avaliar fatos objetivos ou realizar avaliações subjetivas do estilo e tom de escrita em seu conjunto de dados.

Para saber mais sobre o novo LLM como juiz da avaliação de modelos do Amazon Bedrock, incluindo as regiões em que está disponível na AWS, leia o blog de notícias da AWS e acesse a página de avaliações do Amazon Bedrock. Para começar a usar, faça login no Console de Gerenciamento da AWS ou use as APIs do Amazon Bedrock.