Avaliações do Amazon Bedrock
Avalie modelos de base, incluindo modelos personalizados e importados, para encontrar aqueles que atendam às suas necessidades. Você também pode avaliar o fluxo de trabalho de recuperação ou RAG de ponta a ponta no Amazon Bedrock Knowledge Bases.
Visão geral
O Amazon Bedrock fornece ferramentas de avaliação para acelerar a adoção de aplicações de IA generativa. Avalie, compare e selecione o modelo de base para seu caso de uso com a Avaliação de modelo. Prepare suas aplicações de RAG para produção que são criadas no Amazon Bedrock Knowledge Bases ou em seus próprios sistemas de RAG personalizados, avaliando as funções de recuperação ou de recuperação e geração.

Tipos de avaliação
Modelos: LLM como avaliador
Use um LLM como avaliador para avaliar resultados de modelos com base nos seus conjuntos de dados de prompt personalizados, utilizando métricas como exatidão, integridade e nocividade.
Modelos: programáticos
Avalie saídas de modelos usando algoritmos e métricas tradicionais de linguagem natural, como BERT Score, F1 e outras técnicas de correspondência exata, com o auxílio de conjuntos de dados de prompt integrados, ou traga seus próprios métodos.
Modelos: baseados em humanos
Avalie resultados de modelos com sua própria força de trabalho ou faça com que a AWS gerencie suas avaliações nas respostas aos conjuntos de dados de prompts personalizados com métricas integradas ou personalizadas.
RAG: Recuperação
Avalie a qualidade da recuperação do seu sistema de RAG personalizado ou do Amazon Bedrock Knowledge Bases com prompts e métricas personalizadas, como relevância e cobertura do contexto.
RAG: Recuperar e gerar
Avalie o conteúdo gerado do seu fluxo de trabalho de RAG de ponta a ponta a partir do seu pipeline de RAG personalizado ou do Amazon Bedrock Knowledge Bases. Use seus próprios prompts e métricas, como fidelidade (detecção de alucinações), exatidão e integridade.
Avalie seu fluxo de trabalho de RAG de ponta a ponta

Garanta a recuperação completa e relevante do seu sistema de RAG

Avalie FMs para selecionar o melhor para o seu caso de uso

Compare os resultados em vários trabalhos de avaliação para tomar decisões com mais rapidez
