Amazon Bedrock

Avaliações do Amazon Bedrock

Avalie modelos de base, incluindo modelos personalizados e importados, para encontrar aqueles que atendam às suas necessidades. Você também pode avaliar o fluxo de trabalho de recuperação ou RAG de ponta a ponta no Amazon Bedrock Knowledge Bases.

Visão geral

O Amazon Bedrock fornece ferramentas de avaliação para acelerar a adoção de aplicações de IA generativa. Avalie, compare e selecione o modelo de base para seu caso de uso com a avaliação de modelo. Prepare suas aplicações de RAG para produção que são criadas no Amazon Bedrock Knowledge Bases ou em seus próprios sistemas de RAG personalizados, avaliando as funções de recuperação ou de recuperação e geração.

Tipos de avaliação

Use um LLM como avaliador para avaliar resultados de modelos com base nos seus conjuntos de dados de prompt personalizados, utilizando métricas como exatidão, integridade e nocividade.

Avalie saídas de modelos usando algoritmos e métricas tradicionais de linguagem natural, como BERT Score, F1 e outras técnicas de correspondência exata, com o auxílio de conjuntos de dados de prompt integrados, ou traga seus próprios métodos.

Avalie resultados de modelos com sua própria força de trabalho ou faça com que a AWS gerencie suas avaliações nas respostas aos conjuntos de dados de prompts personalizados com métricas integradas ou personalizadas.

Avalie a qualidade da recuperação do seu sistema de RAG personalizado ou do Amazon Bedrock Knowledge Bases com prompts e métricas personalizadas, como relevância e cobertura do contexto.

Avalie o conteúdo gerado do seu fluxo de trabalho de RAG de ponta a ponta a partir do seu pipeline de RAG personalizado ou do Amazon Bedrock Knowledge Bases. Use seus próprios prompts e métricas, como fidelidade (detecção de alucinações), exatidão e integridade.

Avalie seu fluxo de trabalho de RAG de ponta a ponta

Use avaliações de recuperação e geração para avaliar a capacidade de geração aumentada via recuperação (RAG) completa da sua aplicação. Garanta que o conteúdo gerado esteja correto e completo, limite alucinações e siga os princípios de IA responsável. Avalie o desempenho de uma base de conhecimento do Bedrock ou traga suas próprias respostas de inferência do sistema de RAG personalizado. Basta selecionar um LLM para usar como avaliador com o Amazon Bedrock Knowledge Bases ou para saídas de RAG personalizadas, carregar seu conjunto de dados e selecionar as métricas mais importantes para a avaliação.

Garanta a recuperação completa e relevante do seu sistema de RAG

Use avaliações de recuperação de RAG para avaliar as configurações de armazenamento e recuperação do Amazon Bedrock Knowledge Bases ou do seu sistema de RAG personalizado. Certifique-se de que o conteúdo recuperado seja relevante e abranja toda a consulta do usuário. Basta selecionar um LLM para usar como avaliador, escolher uma base de conhecimento do Bedrock para avaliar ou incluir suas recuperações personalizadas do sistema de RAG em seu conjunto de dados de prompts e selecionar suas métricas.

Avalie FMs para selecionar o melhor para o seu caso de uso

A avaliação de modelo do Amazon Bedrock permite usar avaliações automáticas e humanas ao selecionar FMs para um caso de uso específico. A avaliação de modelo automática (programática) usa conjuntos de dados selecionados e personalizados, além de fornecer métricas predefinidas, incluindo precisão, robustez e toxicidade. Para métricas subjetivas, você pode usar o Amazon Bedrock para configurar um fluxo de trabalho de avaliação humana com algumas etapas rápidas. Com avaliações humanas, você pode trazer seus próprios conjuntos de dados e definir métricas personalizadas, como relevância, estilo e alinhamento com a voz da marca. Fluxos de trabalho de avaliação humana podem usar seus próprios funcionários como revisores, ou você pode contratar uma equipe gerenciada pela AWS para realizar a avaliação humana, em que a AWS designa avaliadores qualificados e gerencia o fluxo de trabalho completo por você. Você também pode usar um LLM como avaliador para fornecer avaliações de alta qualidade no seu conjunto de dados, com métricas como correção, integridade, fidelidade (alucinação), bem como métricas de IA responsável, como recusa de resposta e nocividade. Você pode avaliar modelos do Bedrock ou qualquer modelo em qualquer lugar trazendo suas próprias respostas de inferência no seu conjunto de dados de prompts de entrada.

Compare os resultados em vários trabalhos de avaliação para tomar decisões com mais rapidez

Use o recurso de comparação em avaliações para ver os resultados de quaisquer alterações feitas em prompts, nos modelos que estão sendo avaliados, em seus sistemas de RAG personalizados ou no Bedrock Knowledge Bases.

Como começar a usar

Blog

O Amazon Bedrock Knowledge Bases agora oferece suporte à avaliação RAG

Leia o blog

Blog

A avaliação de modelo do Amazon Bedrock agora inclui LLM como avaliador

Leia o blog

Blog

Aprenda a avaliar modelos para seu caso de uso

Leia o blog

Avaliações do Amazon Bedrock

Visão geral

Tipos de avaliação

Avalie seu fluxo de trabalho de RAG de ponta a ponta

Garanta a recuperação completa e relevante do seu sistema de RAG

Avalie FMs para selecionar o melhor para o seu caso de uso

Compare os resultados em vários trabalhos de avaliação para tomar decisões com mais rapidez

Como começar a usar

O Amazon Bedrock Knowledge Bases agora oferece suporte à avaliação RAG

A avaliação de modelo do Amazon Bedrock agora inclui LLM como avaliador

Aprenda a avaliar modelos para seu caso de uso

Aprenda

Recursos

Desenvolvedores

Ajuda

Avaliações do Amazon Bedrock

Visão geral

Tipos de avaliação

Modelos: LLM como avaliador

Modelos: programáticos

Modelos: baseados em humanos

RAG: Recuperação

RAG: Recuperar e gerar

Avalie seu fluxo de trabalho de RAG de ponta a ponta

Garanta a recuperação completa e relevante do seu sistema de RAG

Avalie FMs para selecionar o melhor para o seu caso de uso

Compare os resultados em vários trabalhos de avaliação para tomar decisões com mais rapidez

Como começar a usar

O Amazon Bedrock Knowledge Bases agora oferece suporte à avaliação RAG

A avaliação de modelo do Amazon Bedrock agora inclui LLM como avaliador

Aprenda a avaliar modelos para seu caso de uso

Aprenda

Recursos

Desenvolvedores

Ajuda