Passa al contenuto principale

Amazon Bedrock

Amazon Bedrock Evaluations

Valuta i modelli di fondazione, compresi i modelli personalizzati e importati, per trovare quelli più adatti alle tue esigenze. Puoi anche valutare il tuo flusso di lavoro RAG di recupero o end-to-end nelle Knowledge Base per Amazon Bedrock.

Panoramica

Amazon Bedrock fornisce strumenti di valutazione per accelerare l'adozione di applicazioni di IA generativa. Valuta, confronta e seleziona il modello di fondazione (FM) per il tuo caso d'uso con la valutazione del modello. Prepara per la produzione le applicazioni di generazione potenziata da recupero dati (RAG) basate sulle Knowledge Base per Amazon Bedrock o su un sistema RAG personalizzato valutando le funzioni di recupero o recupero e generazione.

Missing alt text value

Tipi di valutazione

Usa un LLM-as-a-judge per valutare i risultati del modello utilizzando set di dati di prompt personalizzati con metriche quali correttezza, completezza e dannosità.

Valuta gli output dei modelli utilizzando algoritmi e metriche tradizionali in linguaggio naturale come BERT Score, F1 e altre tecniche di corrispondenza esatta, usando set di dati di prompt integrati o personalizzati.

Valuta gli output dei modelli impiegando la tua forza lavoro o chiedi ad AWS di gestire le valutazioni sulle risposte ai set di dati di prompt personalizzati con metriche integrate o personalizzate.

Valuta la qualità del recupero del sistema RAG personalizzato o delle Knowledge Base per Amazon Bedrock con metriche e prompt personalizzati, come la pertinenza e la copertura del contesto.

Valuta il contenuto generato dal flusso di lavoro RAG end-to-end dalla pipeline RAG personalizzata o dalle Knowledge Base per Amazon Bedrock. Usa prompt e metriche personalizzati, come fedeltà (rilevamento delle allucinazioni), correttezza e completezza.

Valuta il flusso di lavoro RAG end-to-end

Usa le valutazioni della funzione recupero e generazione per valutare la capacità del sistema RAG end-to-end dell'applicazione. Assicurati che il contenuto generato sia corretto, completo, limiti le allucinazioni e aderisca ai principi dell'IA responsabile. Valuta le prestazioni di una Knowledge Base per Bedrock o fornisci le risposte di inferenza generate dal sistema RAG personalizzato. Dovrai soltanto selezionare un modello linguistico di grandi dimensioni (LLM) da utilizzare come giudice con le Knowledge Base per Amazon Bedrock o gli output del sistema RAG personalizzato, caricare il set di dati e selezionare le metriche più importanti per la valutazione.
Missing alt text value

Garantisci completezza e pertinenza del recupero dal sistema RAG

Usa le valutazioni del recupero del sistema RAG per valutare le impostazioni di archiviazione e recupero delle Knowledge Base per Amazon Bedrock o del sistema RAG personalizzato. Assicurati che il contenuto recuperato sia pertinente e copra l'intera query dell'utente. Dovrai soltanto selezionare un LLM da usare come giudice, scegliere una Knowledge Base per Bedrock da valutare o includere i recuperi del sistema RAG personalizzato nel set di dati dei prompt, per poi selezionare le metriche.
Missing alt text value

Valuta i modelli di fondazione per selezionare il migliore in base al caso d'uso

La valutazione del modello di Amazon Bedrock consente di utilizzare valutazioni automatiche e umane per selezionare i modelli di fondazione (FM) per un caso d'uso specifico. La valutazione automatica (programmatica) del modello utilizza set di dati selezionati e personalizzati e fornisce parametri predefiniti, tra cui accuratezza, affidabilità e rilevamento di contenuti inappropriati. Per adottare parametri soggettivi, puoi utilizzare Amazon Bedrock per configurare un flusso di lavoro di valutazione umana in pochi passaggi. Con la valutazione umana, puoi utilizzare il tuo set di dati e definire parametri personalizzati, come pertinenza, stile e conformità alla voce del marchio. Per l'esecuzione di flussi di lavoro di valutazione umana, puoi impiegare i tuoi dipendenti come revisori o affidarti a un team gestito da AWS. In questo caso, AWS assume valutatori esperti e gestisce il flusso di lavoro completo per tuo conto. Inoltre, puoi utilizzare un LLM-as-a-judge per fornire valutazioni di alta qualità sul set di dati con metriche quali correttezza, completezza, fedeltà (allucinazione) e metriche di IA responsabile come il rifiuto della risposta e la dannosità. Puoi valutare i modelli Bedrock o di qualsiasi altro tipo ovunque inserendo le risposte dell'inferenza nel set di dati del prompt di input.
Missing alt text value

Confronta i risultati di più attività di valutazione per prendere decisioni più velocemente

Usa la funzionalità di confronto nelle valutazioni per visualizzare i risultati di eventuali modifiche apportate ai prompt, ai modelli in fase di valutazione, al sistema RAG personalizzato o alle Knowledge Base per Amazon Bedrock.
Missing alt text value