Amazon Bedrock

Amazon Bedrock Evaluations

Valuta i modelli di fondazione, compresi i modelli personalizzati e importati, per trovare quelli più adatti alle tue esigenze. Puoi anche valutare il tuo flusso di lavoro RAG di recupero o end-to-end nelle Knowledge Base per Amazon Bedrock.

Panoramica

Amazon Bedrock fornisce strumenti di valutazione per accelerare l'adozione di applicazioni di IA generativa. Valuta, confronta e seleziona il modello di fondazione (FM) per il tuo caso d'uso con la valutazione del modello. Prepara per la produzione le applicazioni di generazione potenziata da recupero dati (RAG) basate sulle Knowledge Base per Amazon Bedrock o su un sistema RAG personalizzato valutando le funzioni di recupero o recupero e generazione.

Tipi di valutazione

Usa un LLM-as-a-judge per valutare i risultati del modello utilizzando set di dati di prompt personalizzati con metriche quali correttezza, completezza e dannosità.

Valuta gli output dei modelli utilizzando algoritmi e metriche tradizionali in linguaggio naturale come BERT Score, F1 e altre tecniche di corrispondenza esatta, usando set di dati di prompt integrati o personalizzati.

Valuta gli output dei modelli impiegando la tua forza lavoro o chiedi ad AWS di gestire le valutazioni sulle risposte ai set di dati di prompt personalizzati con metriche integrate o personalizzate.

Valuta la qualità del recupero del sistema RAG personalizzato o delle Knowledge Base per Amazon Bedrock con metriche e prompt personalizzati, come la pertinenza e la copertura del contesto.

Valuta il contenuto generato dal flusso di lavoro RAG end-to-end dalla pipeline RAG personalizzata o dalle Knowledge Base per Amazon Bedrock. Usa prompt e metriche personalizzati, come fedeltà (rilevamento delle allucinazioni), correttezza e completezza.

Valuta il flusso di lavoro RAG end-to-end

Usa le valutazioni della funzione recupero e generazione per valutare la capacità del sistema RAG end-to-end dell'applicazione. Assicurati che il contenuto generato sia corretto, completo, limiti le allucinazioni e aderisca ai principi dell'IA responsabile. Valuta le prestazioni di una Knowledge Base per Bedrock o fornisci le risposte di inferenza generate dal sistema RAG personalizzato. Dovrai soltanto selezionare un modello linguistico di grandi dimensioni (LLM) da utilizzare come giudice con le Knowledge Base per Amazon Bedrock o gli output del sistema RAG personalizzato, caricare il set di dati e selezionare le metriche più importanti per la valutazione.

Garantisci completezza e pertinenza del recupero dal sistema RAG

Usa le valutazioni del recupero del sistema RAG per valutare le impostazioni di archiviazione e recupero delle Knowledge Base per Amazon Bedrock o del sistema RAG personalizzato. Assicurati che il contenuto recuperato sia pertinente e copra l'intera query dell'utente. Dovrai soltanto selezionare un LLM da usare come giudice, scegliere una Knowledge Base per Bedrock da valutare o includere i recuperi del sistema RAG personalizzato nel set di dati dei prompt, per poi selezionare le metriche.

Valuta i modelli di fondazione per selezionare il migliore in base al caso d'uso

La valutazione del modello di Amazon Bedrock consente di utilizzare valutazioni automatiche e umane per selezionare i modelli di fondazione (FM) per un caso d'uso specifico. La valutazione automatica (programmatica) del modello utilizza set di dati selezionati e personalizzati e fornisce parametri predefiniti, tra cui accuratezza, affidabilità e rilevamento di contenuti inappropriati. Per adottare parametri soggettivi, puoi utilizzare Amazon Bedrock per configurare un flusso di lavoro di valutazione umana in pochi passaggi. Con la valutazione umana, puoi utilizzare il tuo set di dati e definire parametri personalizzati, come pertinenza, stile e conformità alla voce del marchio. Per l'esecuzione di flussi di lavoro di valutazione umana, puoi impiegare i tuoi dipendenti come revisori o affidarti a un team gestito da AWS. In questo caso, AWS assume valutatori esperti e gestisce il flusso di lavoro completo per tuo conto. Inoltre, puoi utilizzare un LLM-as-a-judge per fornire valutazioni di alta qualità sul set di dati con metriche quali correttezza, completezza, fedeltà (allucinazione) e metriche di IA responsabile come il rifiuto della risposta e la dannosità. Puoi valutare i modelli Bedrock o di qualsiasi altro tipo ovunque inserendo le risposte dell'inferenza nel set di dati del prompt di input.

Confronta i risultati di più attività di valutazione per prendere decisioni più velocemente

Usa la funzionalità di confronto nelle valutazioni per visualizzare i risultati di eventuali modifiche apportate ai prompt, ai modelli in fase di valutazione, al sistema RAG personalizzato o alle Knowledge Base per Amazon Bedrock.

Come iniziare

Blog

Knowledge Base per Amazon Bedrock ora supporta la valutazione RAG

Leggi il blog

Blog

La valutazione del modello di Amazon Bedrock ora include LLM-as-a-judge

Leggi il blog

Blog

Scopri come valutare i modelli per il tuo caso d'uso

Leggi il blog

Amazon Bedrock Evaluations

Panoramica

Tipi di valutazione

Valuta il flusso di lavoro RAG end-to-end

Garantisci completezza e pertinenza del recupero dal sistema RAG

Valuta i modelli di fondazione per selezionare il migliore in base al caso d'uso

Confronta i risultati di più attività di valutazione per prendere decisioni più velocemente

Come iniziare

Knowledge Base per Amazon Bedrock ora supporta la valutazione RAG

La valutazione del modello di Amazon Bedrock ora include LLM-as-a-judge

Scopri come valutare i modelli per il tuo caso d'uso

Scopri

Risorse

Sviluppatori

Assistenza

Amazon Bedrock Evaluations

Panoramica

Tipi di valutazione

Modelli: LLM-as-a-judge

Modelli: programmatico

Modelli: a base umana

RAG: recupero

RAG: recupero e generazione

Valuta il flusso di lavoro RAG end-to-end

Garantisci completezza e pertinenza del recupero dal sistema RAG

Valuta i modelli di fondazione per selezionare il migliore in base al caso d'uso

Confronta i risultati di più attività di valutazione per prendere decisioni più velocemente

Come iniziare

Knowledge Base per Amazon Bedrock ora supporta la valutazione RAG

La valutazione del modello di Amazon Bedrock ora include LLM-as-a-judge

Scopri come valutare i modelli per il tuo caso d'uso

Scopri

Risorse

Sviluppatori

Assistenza