Avaliações de RAG e modelos do Amazon Bedrock já oferecem suporte a métricas personalizadas

Publicado: 17 de abr de 2025

As avaliações do Amazon Bedrock permitem que você avalie modelos de base e sistemas de geração aumentada via recuperação (RAG) hospedados no Amazon Bedrock ou em implantações multicloud e on-premises. As avaliações do Bedrock oferecem avaliações baseadas em humanos; avaliações programáticas, como BERTScore, F1 e outras métricas de correspondência exata; bem como LLM como avaliador para avaliação de modelo e RAG. Nas avaliações de modelos e RAG com LLM como avaliador, os clientes podem escolher entre uma ampla lista de métricas como exatidão, integridade e fidelidade (detecção de alucinações), bem como métricas de IA responsável, como nocividade, recusa e estereotipagem de respostas. Porém, há momentos em que eles querem definir essas métricas de forma diferente ou criar novas métricas que sejam relevantes para suas necessidades. Por exemplo, os clientes podem definir uma métrica que avalia a aderência da resposta de uma aplicação à voz específica de sua marca ou desejam classificar as respostas de acordo com uma rubrica categórica personalizada.

Agora, as avaliações do Amazon Bedrock oferecem aos clientes a capacidade de criar e reutilizar métricas personalizadas para avaliação de modelos e RAG usando a tecnologia LLM como avaliador. Os clientes podem escrever seus próprios prompts de avaliação, definir suas próprias escalas de avaliação categórica ou numérica e usar variáveis integradas para injetar dados de um conjunto de dados ou de respostas de GenAI no prompt de avaliação durante o runtime para personalizar totalmente o fluxo de dados nas avaliações. Os clientes podem usar os modelos de início rápido fornecidos como base para criar novos modelos/rubricas de prompts de avaliação ou criar os seus próprios do zero.

Para começar a usar, acesse o console do Amazon Bedrock ou use as APIs do Bedrock. Para obter mais informações, consulte o Guia do usuário.