L'évaluation de modèles Amazon Bedrock inclut désormais le LLM-as-a-Judge (version préliminaire)

Publié le: 1 déc. 2024

L'évaluation des modèles Amazon Bedrock vous permet d'évaluer, de comparer et de sélectionner les modèles de fondation (FM) les mieux adaptés à votre cas d'utilisation. Vous pouvez désormais utiliser une nouvelle fonctionnalité d'évaluation, LLM-as-a-Judge, en version préliminaire. Cela vous permet de choisir un LLM comme juge pour vous assurer d'avoir la bonne combinaison de modèles d'évaluateurs et de modèles en cours d'évaluation. Vous pouvez choisir parmi plusieurs LLM juges disponibles sur Amazon Bedrock. Vous pouvez également sélectionner des métriques de qualité sélectionnées telles que l'exactitude, l'exhaustivité, le style et le ton professionnels, ainsi que des métriques d'IA responsable telles que la nocivité et le refus de réponse. Dorénavant, vous pouvez également apporter votre propre jeu de données rapides pour vous assurer que l'évaluation est personnalisée en fonction de vos données, et vous pouvez comparer les résultats des différentes tâches d'évaluation pour prendre des décisions plus rapidement.

Auparavant, vous aviez le choix entre une évaluation de modèle basée sur l'homme et une évaluation automatique avec une correspondance exacte des chaînes et d'autres métriques NLP traditionnelles. Ces méthodes, bien que rapides, n'ont pas fourni de forte corrélation avec les évaluateurs humains. Désormais, avec les LLM juges, vous pouvez obtenir une qualité d'évaluation comparable à celle d'un humain à un coût bien inférieur à celui des évaluations humaines complètes, tout en économisant des semaines de délai. Vous pouvez utiliser des métriques intégrées pour évaluer des faits objectifs ou effectuer des évaluations subjectives du style et du ton d'écriture de votre jeu de données.

Pour en savoir plus sur les nouveaux LLM juges de l’évaluation de modèles Amazon Bedrock, y compris les régions AWS disponibles, consultez le blog AWS News et la page Amazon Bedrock Evaluations. Pour commencer, connectez-vous à la console de gestion AWS ou utilisez les API Amazon Bedrock.