Amazon Bedrock Evaluations
Valuta i modelli di fondazione, compresi i modelli personalizzati e importati, per trovare quelli più adatti alle tue esigenze. Puoi anche valutare il tuo flusso di lavoro RAG di recupero o completo nelle Knowledge Base per Amazon Bedrock.
Panoramica
Amazon Bedrock fornisce strumenti di valutazione per accelerare l'adozione di applicazioni di IA generativa. Valuta, confronta e seleziona il modello di fondazione (FM) per il tuo caso d'uso con la valutazione del modello. Prepara per la produzione le applicazioni di generazione potenziata da recupero dati (RAG) basate sulle Knowledge Base per Amazon Bedrock o su un sistema RAG personalizzato valutando le funzioni di recupero o recupero e generazione.

Tipi di valutazione
Modelli: LLM-as-a-judge
Usa un LLM come un giudice per valutare i risultati del modello utilizzando set di dati prompt personalizzati con metriche quali correttezza, completezza e dannosità.
Modelli: programmatico
Valuta gli output del modello utilizzando algoritmi e metriche tradizionali in linguaggio naturale come BERT Score, F1 e altre tecniche di corrispondenza esatta, utilizzando set di dati prompt integrati o bring your own.
Modelli: a base umana
Valuta gli output dei modelli impiegando il tuo personale o chiedi ad AWS di gestire le valutazioni sulle risposte ai set di dati di prompt personalizzati con metriche integrate o personalizzate.
RAG: recupero
Valuta la qualità del recupero del sistema RAG personalizzato o delle Knowledge Base per Amazon Bedrock con metriche e prompt personalizzati, come la pertinenza e la copertura del contesto.
RAG: recupero e generazione
Valuta il contenuto generato dal flusso di lavoro RAG end-to-end dalla pipeline RAG personalizzata o dalle Knowledge Base per Amazon Bedrock. Usa prompt e metriche personalizzati, come fedeltà (rilevamento delle allucinazioni), correttezza e completezza.
Valuta il flusso di lavoro RAG end-to-end

Garantisci completezza e pertinenza del recupero dal sistema RAG

Valuta i modelli FM per selezionare il migliore per il caso d'uso

Confronta i risultati di più attività di valutazione per prendere decisioni più velocemente
