Amazon Bedrock RAG e Model Evaluations ora supportano metriche personalizzate
Amazon Bedrock Evaluations consente di valutare i modelli di base e i sistemi di generazione potenziata da recupero dati (RAG), siano essi ospitati su Amazon Bedrock o implementazioni multicloud e on-premise. Bedrock Evaluations offre valutazioni basate sul controllo umano, valutazioni programmatiche come BERTScore, F1 e altre metriche di corrispondenza esatta, oltre a LLM-as-a-judge sia per la valutazione del modello che per la valutazione RAG. Sia per la valutazione del modello che per la valutazione RAG con LLM-as-a-judge, i clienti possono scegliere da un ampio elenco di metriche integrate come correttezza, completezza e fedeltà (rilevamento delle allucinazioni), oltre a metriche di IA responsabile come rifiuto della risposta, dannosità e stereotipi. Tuttavia, ci sono momenti in cui vogliono definire queste metriche in modo diverso o crearne di nuove pertinenti alle loro esigenze. Ad esempio, i clienti possono definire una metrica che valuti l'aderenza della risposta di un'applicazione alla brand voice specifica, oppure classificare le risposte in base a una rubrica categorica personalizzata.
Amazon Bedrock Evaluations offre ora ai clienti la possibilità di creare e riutilizzare metriche personalizzate per la valutazione dei modelli e dei RAG con tecnologia LLM-as-a-judge. I clienti possono scrivere i propri prompt di giudizio, definire le proprie scale di valutazione categoriche o numeriche e utilizzare variabili integrate per inserire i dati del proprio set di dati o delle risposte di IA generativa nel prompt di giudizio durante l'esecuzione per personalizzare completamente il flusso di dati nelle proprie valutazioni. I clienti possono essere ispirati a creare nuovi modelli/rubriche di giudizio con i modelli di avvio rapido forniti oppure possono crearne di propri partendo da zero.
Per iniziare, visita la console Amazon Bedrock o utilizza le API Bedrock. Per ulteriori informazioni, consulta la guida per l'utente.