- IA generativa›
- Amazon Bedrock›
- Evaluations
Amazon Bedrock Evaluations
Valuta i modelli di fondazione, compresi i modelli personalizzati e importati, per trovare quelli più adatti alle tue esigenze. Puoi anche valutare il tuo flusso di lavoro RAG di recupero o end-to-end nelle Knowledge Base per Amazon Bedrock.
Panoramica
Amazon Bedrock fornisce strumenti di valutazione per accelerare l'adozione di applicazioni di IA generativa. Valuta, confronta e seleziona il modello di fondazione (FM) per il tuo caso d'uso con la valutazione del modello. Prepara per la produzione le applicazioni di generazione potenziata da recupero dati (RAG) basate sulle Knowledge Base per Amazon Bedrock o su un sistema RAG personalizzato valutando le funzioni di recupero o recupero e generazione.
Tipi di valutazione
Usa un LLM-as-a-judge per valutare i risultati del modello utilizzando set di dati di prompt personalizzati con metriche quali correttezza, completezza e dannosità.
Valuta gli output dei modelli utilizzando algoritmi e metriche tradizionali in linguaggio naturale come BERT Score, F1 e altre tecniche di corrispondenza esatta, usando set di dati di prompt integrati o personalizzati.
Valuta gli output dei modelli impiegando la tua forza lavoro o chiedi ad AWS di gestire le valutazioni sulle risposte ai set di dati di prompt personalizzati con metriche integrate o personalizzate.
Valuta la qualità del recupero del sistema RAG personalizzato o delle Knowledge Base per Amazon Bedrock con metriche e prompt personalizzati, come la pertinenza e la copertura del contesto.
Valuta il contenuto generato dal flusso di lavoro RAG end-to-end dalla pipeline RAG personalizzata o dalle Knowledge Base per Amazon Bedrock. Usa prompt e metriche personalizzati, come fedeltà (rilevamento delle allucinazioni), correttezza e completezza.
Valuta il flusso di lavoro RAG end-to-end
Garantisci completezza e pertinenza del recupero dal sistema RAG
Valuta i modelli di fondazione per selezionare il migliore in base al caso d'uso
Confronta i risultati di più attività di valutazione per prendere decisioni più velocemente