Amazon SageMaker Clarify

Valuta i modelli e spiega le previsioni del modello

Cos'è Amazon SageMaker Clarify?

Vantaggi di SageMaker Clarify

Valuta automaticamente i modelli di fondazione (FM) per il tuo caso d'uso di IA generativa con metriche quali precisione, robustezza e tossicità per supportare la tua iniziativa di IA responsabile. Per criteri e contenuti delicati che richiedono un giudizio umano sofisticato, puoi decidere di sfruttare la tua forza lavoro o utilizzare una forza lavoro gestita fornita da AWS per valutare le risposte del modello.
Spiega come le funzionalità di input contribuiscono alle previsioni di modelli durante lo sviluppo e l'inferenza dei modelli. Valuta il tuo FM durante la personalizzazione grazie a valutazioni automatiche ed eseguite da umani.
Genera metriche, report ed esempi di facile comprensione durante la personalizzazione del modello di fondazione (FM) e il flusso di lavoro MLOps.
Rileva potenziali bias e altri rischi, come prescritto da linee guida quali ISO 42001, durante la preparazione dei dati, la personalizzazione del modello e nei modelli implementati.

Valuta i modelli di fondazione

Procedura guidata e report di valutazione

Per avviare una valutazione, seleziona il modello, l'attività e il tipo di valutazione: eseguita da umani o report automatici. Utilizza i risultati della valutazione per scegliere il modello migliore per il caso d'uso e per quantificare l'impatto delle tecniche di personalizzazione del modello, come progettazione dei prompt, apprendimento per rinforzo da feedback umano (RLHF), retrieval-augmented generation (RAG) e ottimizzazione di precisione supervisionata (SFT). I report di valutazione riassumono i punteggi in diverse dimensioni, consentendo di effettuare confronti e prendere decisioni in modo rapido. I report più dettagliati presentano esempi degli output del modello con il punteggio più alto e più basso, consentendo di concentrarsi sulle aree che necessitano di maggiore ottimizzazione.
Procedura guidata e report di valutazione

Personalizzazione

Inizia a lavorare velocemente con set di dati, come CrowS-Pairs, TriviaQA e WikiText, e algoritmi curati, come Bert-Score, Rouge e F1. È possibile personalizzare i set di dati di prompt e algoritmi di punteggio specifici per la tua applicazione di IA generativa. La valutazione automatica è disponibile anche come libreria open source in GitHub per poterla eseguire ovunque. I notebook di esempio mostrano come eseguire la valutazione in modo programmatico per qualsiasi FM, inclusi i modelli che non sono in hosting su AWS, e come integrare le valutazioni di FM con SageMaker MLOps e strumenti di governance, come Pipeline SageMaker, Registro dei modelli SageMaker e Schede dei modelli SageMaker.
Personalizzazione

Valutazioni su base umana

Alcuni criteri di valutazione sono ricchi di sfumature o soggettivi e devono essere valutati secondo il giudizio umano. Oltre alle valutazioni automatiche basate su parametri, puoi chiedere a umani (i tuoi dipendenti o un team di valutazione gestito da AWS) di valutare gli output del modello in base a dimensioni come utilità, tono e aderenza alla voce del marchio. I valutatori umani possono anche verificare la coerenza con le linee guida, la nomenclatura e la voce del marchio specifici dell'azienda. Configura istruzioni personalizzate per indicare al team di valutazione come valutare i prompt, ad esempio utilizzando una classifica o assegnando pollici in alto o in basso.
Valutazioni su base umana

Valutazioni della qualità del modello

Valuta il FM per determinare se offre risposte di alta qualità per le tue attività di IA generativa specifiche utilizzando valutazioni automatiche e/o eseguite da umani. Valuta l'accuratezza del modello con algoritmi di valutazione specifici, come Bert Score, Rouge e F1, personalizzati per attività di IA generativa specifiche, come sintesi, risposta alle domande e classificazione. Verifica la solidità semantica dell'output del FM a fronte di perturbazioni degli input che conservano la semantica, come ButterFingers, lettere maiuscole casuali e aggiunta o rimozione di spazi bianchi.
Valutazioni della qualità del modello

Valutazioni della responsabilità del modello

Valuta il rischio che il FM possa aver codificato degli stereotipi nelle categorie di razza/colore, genere/identità di genere, orientamento sessuale, religione, età, nazionalità, disabilità, aspetto fisico e condizione socioeconomica utilizzando valutazioni automatiche e/o eseguite a umani. Inoltre, è possibile valutare il rischio della presenza di contenuti inappropriati. Queste valutazioni possono essere applicate a qualsiasi attività che implichi la generazione di contenuti, tra cui la generazione aperta, la sintesi e la risposta alle domande.

Valutazioni della responsabilità del modello

Previsioni del modello

Spiega le previsioni del modello

SageMaker Clarify è integrato con SageMaker Experiments per fornire dei punteggi che riportano le funzionalità che hanno contribuito maggiormente alla previsione di un modello su un input particolare per i modelli tabulari, di elaborazione del linguaggio naturale e di visione artificiale. Per i set di dati tabulari, SageMaker Clarify può anche produrre un grafico di importanza delle funzionalità aggregate che fornisce informazioni dettagliate sul processo di previsione generale del modello. Questi dettagli possono aiutare a stabilire se un particolare input di modello abbia più influenza del previsto sul comportamento generale del modello.
Screenshot del grafico dell'importanza di una caratteristica per un modello addestrato in SageMaker Experiments

Monitora il modello per rilevare cambiamenti nel comportamento

Le modifiche ai dati in tempo reale possono esporre un nuovo comportamento del modello. Ad esempio, un modello di previsione del rischio di credito addestrato sui dati di una regione geografica potrebbe modificare l'importanza che assegna a varie funzionalità se applicato ai dati di un'altra regione. SageMaker Clarify è integrato con SageMaker Model Monitor per avvisarti tramite sistemi di avviso come CloudWatch se l'importanza delle funzionalità di input cambia, causando il cambiamento del comportamento del modello.
Screenshot del monitoraggio dell'importanza delle caratteristiche in SageMaker Model Monitor