Passer au contenu principal

Amazon Bedrock

Évaluations Amazon Bedrock

Évaluez les modèles de fondation, y compris les modèles personnalisés et importés, afin de trouver ceux qui répondent à vos besoins. Vous pouvez également évaluer votre processus de récupération ou votre flux de travail RAG de bout en bout dans les bases de connaissances pour Amazon Bedrock.

Présentation

Amazon Bedrock fournit des outils d’évaluation qui vous permettent d’accélérer l’adoption d’applications d’IA générative. Évaluez, comparez et sélectionnez le modèle de fondation pour votre cas d’utilisation grâce à l’évaluation des modèles. Préparez vos applications RAG pour la production, qu’elles soient fondées sur les bases de connaissances pour Amazon Bedrock ou sur vos propres systèmes RAG personnalisés, en évaluant les fonctions de récupération ou de récupération et génération.

Missing alt text value

Types d’évaluation

Utilisez la méthodologie LLM-juge pour évaluer les résultats des modèles à l’aide de vos jeux de données d’invites personnalisés, avec des métriques telles que l’exactitude, l’exhaustivité et la dangerosité.

Évaluez les résultats des modèles à l’aide d’algorithmes et de métriques classiques de traitement du langage naturel, tels que BERT Score, F1 et d’autres techniques de correspondance exacte, en utilisant les jeux de données d’invites intégrés ou vos propres jeux de données.

Évaluez les résultats des modèles avec vos propres équipes ou confiez à AWS la gestion de vos évaluations sur les réponses à vos jeux de données d’invites personnalisés, en utilisant des métriques intégrées ou sur mesure.

Évaluez la qualité de récupération de votre système RAG personnalisé ou des bases de données pour Amazon Bedrock à l’aide de vos invites et de métriques telles que la pertinence du contexte et la couverture contextuelle.

Évaluez le contenu généré par votre flux de travail RAG de bout en bout à partir de votre pipeline RAG personnalisé ou des bases de connaissances pour Amazon Bedrock. Utilisez vos propres invites et métriques telles que la fidélité (détection des hallucinations), l’exactitude et l’exhaustivité.

Évaluation de votre flux de travail RAG de bout en bout

Utilisez les évaluations de récupération et de génération pour évaluer la génération à enrichissement contextuel (RAG) de bout en bout de votre application. Assurez-vous que le contenu généré est correct et complet, qu’il limite les hallucinations et respecte les principes de l’IA responsable. Évaluez les performances d’une base de connaissances pour Bedrock ou apportez vos propres réponses d’inférence à partir de votre système RAG personnalisé. Il vous suffit de sélectionner un grand modèle de langage (LLM) à utiliser en tant que juge avec vos bases de connaissances pour Amazon Bedrock ou pour les résultats de votre RAG personnalisé, d’importer votre jeu de données et de sélectionner les métriques les plus importantes pour votre évaluation.
Missing alt text value

Garantissez une récupération complète et pertinente à partir de votre système RAG

Utilisez les évaluations de récupération RAG pour évaluer les paramètres de stockage et de récupération de vos bases de connaissances pour Amazon Bedrock ou de votre système RAG personnalisé. Assurez-vous que le contenu récupéré est pertinent et couvre l’intégralité de la requête utilisateur. Il vous suffit de sélectionner un LLM à utiliser en tant que juge, de choisir une base de connaissances pour Bedrock pour évaluer ou d’inclure les récupérations de votre système RAG personnalisé dans votre jeu de données d’invites, et de sélectionner vos métriques.
Missing alt text value

Évaluez les modèles de fondation pour sélectionner celui qui convient le mieux à votre cas d’utilisation

L’évaluation des modèles Amazon Bedrock vous permet d’utiliser des évaluations automatiques et humaines pour sélectionner des modèles de fondation adaptés à un cas d’utilisation spécifique. L’évaluation des modèles automatique (programmatique) utilise des jeux de données sélectionnés et personnalisés, et fournit des métriques prédéfinies telles que la précision, la robustesse et la toxicité. Pour les métriques subjectives, vous pouvez utiliser Amazon Bedrock pour configurer un flux de travail d’évaluation humaine en quelques étapes simples. Grâce aux évaluations humaines, vous pouvez apporter vos propres jeux de données et définir des métriques personnalisées, telles que la pertinence, le style et l’alignement avec la voix de marque. Pour les flux de travail d’évaluation humaine, vos propres employés peuvent travailler en tant que réviseurs, ou vous pouvez engager une équipe gérée par AWS pour effectuer l’évaluation. Dans ce cas, AWS recrute des évaluateurs qualifiés et gère l’ensemble du flux de travail pour votre compte. Vous pouvez également utiliser la méthodologie LLM-juge pour fournir des évaluations de haute qualité sur votre jeu de données avec des métriques telles que l’exactitude, l’exhaustivité et la fidélité (hallucination), ainsi que des métriques d’IA responsable telles que le refus de réponse et la dangerosité. Vous pouvez évaluer les modèles Bedrock ou n’importe quel modèle, où qu’il soit, en apportant vos propres réponses d’inférence dans votre jeu de données d’invites.
Missing alt text value

Comparez les résultats de plusieurs tâches d’évaluation pour prendre des décisions plus rapidement

Utilisez la fonctionnalité de comparaison dans les évaluations pour voir les résultats des modifications que vous avez apportées à vos invites, aux modèles évalués, à vos systèmes RAG personnalisés ou aux bases de connaissances pour Bedrock.
Missing alt text value