Pular para o conteúdo principal

Amazon Bedrock

Avaliações do Amazon Bedrock

Avalie modelos de base, incluindo modelos personalizados e importados, para encontrar aqueles que atendam às suas necessidades. Você também pode avaliar o fluxo de trabalho de recuperação ou RAG de ponta a ponta no Amazon Bedrock Knowledge Bases.

Visão geral

O Amazon Bedrock fornece ferramentas de avaliação para acelerar a adoção de aplicações de IA generativa. Avalie, compare e selecione o modelo de base para seu caso de uso com a Avaliação de modelo. Prepare suas aplicações de RAG para produção que são criadas no Amazon Bedrock Knowledge Bases ou em seus próprios sistemas de RAG personalizados, avaliando as funções de recuperação ou de recuperação e geração.

Missing alt text value

Tipos de avaliação

Use um LLM como avaliador para avaliar resultados de modelos com base nos seus conjuntos de dados de prompt personalizados, utilizando métricas como exatidão, integridade e nocividade.

Avalie saídas de modelos usando algoritmos e métricas tradicionais de linguagem natural, como BERT Score, F1 e outras técnicas de correspondência exata, com o auxílio de conjuntos de dados de prompt integrados, ou traga seus próprios métodos.

Avalie resultados de modelos com sua própria força de trabalho ou faça com que a AWS gerencie suas avaliações nas respostas aos conjuntos de dados de prompts personalizados com métricas integradas ou personalizadas.

Avalie a qualidade da recuperação do seu sistema de RAG personalizado ou do Amazon Bedrock Knowledge Bases com prompts e métricas personalizadas, como relevância e cobertura do contexto.

Avalie o conteúdo gerado do seu fluxo de trabalho de RAG de ponta a ponta a partir do seu pipeline de RAG personalizado ou do Amazon Bedrock Knowledge Bases. Use seus próprios prompts e métricas, como fidelidade (detecção de alucinações), exatidão e integridade.

Avalie seu fluxo de trabalho de RAG de ponta a ponta

Use avaliações de recuperação e geração para avaliar a capacidade de geração aumentada via recuperação (RAG) completa da sua aplicação. Garanta que o conteúdo gerado esteja correto e completo, limite alucinações e siga os princípios de IA responsável. Avalie o desempenho de uma base de conhecimento do Bedrock ou traga suas próprias respostas de inferência do sistema de RAG personalizado. Basta selecionar um LLM para usar como avaliador com o Amazon Bedrock Knowledge Bases ou para saídas de RAG personalizadas, carregar seu conjunto de dados e selecionar as métricas mais importantes para a avaliação.
Missing alt text value

Garanta a recuperação completa e relevante do seu sistema de RAG

Use avaliações de recuperação de RAG para avaliar as configurações de armazenamento e recuperação do Amazon Bedrock Knowledge Bases ou do seu sistema de RAG personalizado. Certifique-se de que o conteúdo recuperado seja relevante e abranja toda a consulta do usuário. Basta selecionar um LLM para usar como avaliador, escolher uma base de conhecimento do Bedrock para avaliar ou incluir suas recuperações personalizadas do sistema de RAG em seu conjunto de dados de prompts e selecionar suas métricas.
Missing alt text value

Avalie FMs para selecionar o melhor para o seu caso de uso

A Avaliação de modelo do Amazon Bedrock permite usar avaliações automáticas e humanas ao selecionar FMs para um caso de uso específico. A Avaliação de modelo automática (programática) usa conjuntos de dados selecionados e personalizados, além de fornecer métricas predefinidas, incluindo precisão, robustez e toxicidade. Para métricas subjetivas, você pode usar o Amazon Bedrock para configurar um fluxo de trabalho de avaliação humana com algumas etapas rápidas. Com avaliações humanas, você pode trazer seus próprios conjuntos de dados e definir métricas personalizadas, como relevância, estilo e alinhamento com a voz da marca. Fluxos de trabalho de avaliação humana podem usar seus próprios funcionários como revisores, ou você pode contratar uma equipe gerenciada pela AWS para realizar a avaliação humana, em que a AWS designa avaliadores qualificados e gerencia o fluxo de trabalho completo por você. Você também pode usar um LLM como avaliador para fornecer avaliações de alta qualidade no seu conjunto de dados, com métricas como correção, integridade, fidelidade (alucinação), bem como métricas de IA responsável, como recusa de resposta e nocividade. Você pode avaliar modelos do Bedrock ou qualquer modelo em qualquer lugar trazendo suas próprias respostas de inferência no seu conjunto de dados de prompts de entrada.
Missing alt text value

Compare os resultados em vários trabalhos de avaliação para tomar decisões com mais rapidez

Use o recurso de comparação em avaliações para ver os resultados de quaisquer alterações feitas em prompts, nos modelos que estão sendo avaliados, em seus sistemas de RAG personalizados ou no Bedrock Knowledge Bases.
Missing alt text value