Passa al contenuto principale

Amazon Bedrock

Amazon Bedrock Evaluations

Valuta i modelli di fondazione, compresi i modelli personalizzati e importati, per trovare quelli più adatti alle tue esigenze. Puoi anche valutare il tuo flusso di lavoro RAG di recupero o completo nelle Knowledge Base per Amazon Bedrock.

Panoramica

Amazon Bedrock fornisce strumenti di valutazione per accelerare l'adozione di applicazioni di IA generativa. Valuta, confronta e seleziona il modello di fondazione (FM) per il tuo caso d'uso con la valutazione del modello. Prepara per la produzione le applicazioni di generazione potenziata da recupero dati (RAG) basate sulle Knowledge Base per Amazon Bedrock o su un sistema RAG personalizzato valutando le funzioni di recupero o recupero e generazione.

Missing alt text value

Tipi di valutazione

Usa un LLM come un giudice per valutare i risultati del modello utilizzando set di dati prompt personalizzati con metriche quali correttezza, completezza e dannosità.

Valuta gli output del modello utilizzando algoritmi e metriche tradizionali in linguaggio naturale come BERT Score, F1 e altre tecniche di corrispondenza esatta, utilizzando set di dati prompt integrati o bring your own.

Valuta gli output dei modelli impiegando il tuo personale o chiedi ad AWS di gestire le valutazioni sulle risposte ai set di dati di prompt personalizzati con metriche integrate o personalizzate.

Valuta la qualità del recupero del sistema RAG personalizzato o delle Knowledge Base per Amazon Bedrock con metriche e prompt personalizzati, come la pertinenza e la copertura del contesto.

Valuta il contenuto generato dal flusso di lavoro RAG end-to-end dalla pipeline RAG personalizzata o dalle Knowledge Base per Amazon Bedrock. Usa prompt e metriche personalizzati, come fedeltà (rilevamento delle allucinazioni), correttezza e completezza.

Valuta il flusso di lavoro RAG end-to-end

Usa le valutazioni della funzione recupero e generazione per valutare la capacità del sistema RAG end-to-end dell'applicazione. Assicurati che il contenuto generato sia corretto, completo, limiti le allucinazioni e aderisca ai principi dell'IA responsabile. Valuta le prestazioni di una Knowledge Base Bedrock o fornisci le risposte di inferenza generate dal sistema RAG personalizzato. Dovrai soltanto selezionare un LLM da utilizzare come giudice con le Knowledge Base per Amazon Bedrock o gli output del sistema RAG personalizzato, caricare il set di dati e selezionare le metriche più importanti per la valutazione.
Missing alt text value

Garantisci completezza e pertinenza del recupero dal sistema RAG

Usa le valutazioni del recupero del sistema RAG per valutare le impostazioni di archiviazione e recupero delle Knowledge Base per Amazon Bedrock o del sistema RAG personalizzato. Assicurati che il contenuto recuperato sia pertinente e copra l'intera query dell'utente. Dovrai soltanto selezionare un LLM da utilizzare come giudice, scegliere una Knowledge Base Bedrock da valutare o includere i recuperi del sistema RAG personalizzato nel set di dati dei prompt, per poi selezionare le metriche.
Missing alt text value

Valuta i modelli FM per selezionare il migliore per il caso d'uso

La valutazione di modelli di Amazon Bedrock consente di utilizzare valutazioni automatiche e umane per selezionare gli FM per un caso d'uso specifico. La valutazione automatica (programmatica) dei modelli utilizza set di dati selezionati e personalizzati e fornisce parametri predefiniti, tra cui accuratezza, affidabilità e rilevamento di contenuti inappropriati. Per adottare parametri soggettivi, è possibile utilizzare Amazon Bedrock per configurare un flusso di lavoro di valutazione umana in pochi passaggi. Con la valutazione umana, è possibile utilizzare il proprio set di dati e definire parametri personalizzati, come pertinenza, stile e conformità alla voce del marchio. Per l'esecuzione di flussi di lavoro di valutazione umana, è possibile impiegare i dipendenti come revisori o affidarsi a un team gestito da AWS. In questo caso, AWS assume valutatori esperti e gestisce il flusso di lavoro completo per tuo conto. È anche possibile utilizzare un LLM-as-a-judge per fornire valutazioni di alta qualità sul set di dati con metriche quali correttezza, completezza, fedeltà (allucinazione) e metriche di IA responsabile come il rifiuto della risposta e la dannosità. È possibile valutare i modelli Bedrock o di qualsiasi altro tipo ovunque inserendo le risposte dell'inferenza nel set di dati del prompt di input.
Missing alt text value

Confronta i risultati di più attività di valutazione per prendere decisioni più velocemente

Usa la funzionalità di confronto nelle valutazioni per visualizzare i risultati di eventuali modifiche apportate ai prompt, ai modelli in fase di valutazione, al sistema RAG personalizzato o alle Knowledge Base per Amazon Bedrock.
Missing alt text value