La fonctionnalité de LLM en tant que juge d'Amazon Bedrock Model Evaluation est désormais disponible pour tous

Publié le: 20 mars 2025

La fonctionnalité de LLM en tant que juge d'Amazon Bedrock Model Evaluation est désormais disponible pour tous. Amazon Bedrock Model Evaluation vous permet d'évaluer, de comparer et de sélectionner les modèles de fondation (FM) adaptés à votre cas d'utilisation. Vous pouvez choisir un LLM comme juge parmi plusieurs modèles disponibles sur Bedrock pour vous assurer d'avoir la bonne combinaison de modèles d'évaluateur et de modèles évalués. Vous pouvez sélectionner des métriques de qualité telles que l'exactitude, l'exhaustivité, le style et le ton professionnels, ainsi que des métriques d'IA responsable telles que la nocivité et le refus de réponse. Vous pouvez évaluer tous les modèles disponibles sur Amazon Bedrock, y compris les modèles sans serveur, les modèles Bedrock Marketplace compatibles avec l'API Converse, les modèles personnalisés et distillés, les modèles importés et les modèles de routeurs. Vous pouvez également comparer les résultats de différentes tâches d'évaluation.

*Nouveau : plus de flexibilité !* Aujourd'hui, vous pouvez évaluer n'importe quel modèle ou système hébergé n'importe où en intégrant vos propres réponses d'inférence que vous avez déjà récupérées dans votre jeu de données d'invite de saisie pour la tâche d'évaluation (« bring your own inference responses (apportez vos propres réponses d'inférence) »). Ces réponses peuvent provenir d'un modèle Amazon Bedrock ou de n'importe quel modèle ou application hébergé en dehors d'Amazon Bedrock, ce qui vous permet de ne pas faire appel à un modèle Amazon Bedrock lors de la tâche d'évaluation et d'intégrer toutes les étapes intermédiaires de votre candidature dans vos réponses finales.

Avec les LLM en tant que juges, vous pouvez obtenir une qualité d'évaluation comparable à celle d'un humain à moindre coût, tout en économisant des semaines.

Pour en savoir plus, consultez la page et la documentation relatives aux évaluations d'Amazon Bedrock. Pour commencer, connectez-vous à la console AWS ou utilisez les API Amazon Bedrock.