Amazon Bedrock RAG et Model Evaluations prennent désormais en charge les métriques personnalisées
Amazon Bedrock Evaluations vous permet d'évaluer les modèles de fondation et les systèmes de génération à enrichissement contextuel (RAG), qu'ils soient hébergés sur Amazon Bedrock ou dans le cadre de déploiements multicloud et sur site. Bedrock Evaluations propose des évaluations basées sur l'homme, des évaluations programmatiques telles que BERTScore, F1 et d'autres métriques de correspondance exactes, ainsi que LLM-as-a-Judge pour l'évaluation des modèles et de la RAG. Pour l'évaluation des modèles et de la RAG avec LLM-as-a-Judge, les clients peuvent choisir parmi une longue liste de paramètres intégrés tels que l'exactitude, l'exhaustivité, la fidélité (détection des hallucinations), ainsi que des métriques d'IA responsable telles que le refus de réponse, la nocivité et les stéréotypes. Mais il arrive qu'ils souhaitent définir ces métriques différemment ou créer de nouvelles métriques adaptées à leurs besoins. Par exemple, les clients peuvent définir une métrique qui évalue la conformité des réponses d'une application à la voix spécifique de leur marque, ou ils souhaitent classer les réponses selon une rubrique catégorique personnalisée.
Amazon Bedrock Evaluations offre désormais aux clients la possibilité de créer et de réutiliser des métriques personnalisées pour l'évaluation des modèles et de la RAG grâce à LLM-as-a-Judge. Les clients peuvent rédiger leurs propres instructions d'évaluation, définir leurs propres échelles de notation catégorielles ou numériques et utiliser des variables intégrées pour injecter des données provenant de leur jeu de données ou des réponses GenAI dans l'invite d'évaluation pendant l'exécution afin de personnaliser entièrement le flux de données dans leurs évaluations. Les clients peuvent être inspirés pour créer de nouveaux modèles/rubriques d'invite de juges à l'aide des modèles de démarrage rapide fournis ou ils peuvent créer les leurs en partant de zéro.
Pour commencer, rendez-vous sur la console Amazon Bedrock ou utilisez les API Bedrock. Pour en savoir plus, consultez le Guide de l’utilisateur.