Chiudi
Tutte le funzionalità
Pilota automatico
Clarify
Data Wrangler
Implementa
Edge Manager
Esperimenti
Archivio delle caratteristiche
HyperPod
Governance del ML
MLOps
Notebook
Ground Truth
JumpStart
Pipeline
Studio Lab
Addestra
Cos'è Amazon SageMaker Clarify?
Vantaggi di SageMaker Clarify
Valuta i modelli di fondazione
Procedura guidata e report di valutazione
Per avviare una valutazione, seleziona il modello, l'attività e il tipo di valutazione: eseguita da umani o report automatici. Utilizza i risultati della valutazione per scegliere il modello migliore per il caso d'uso e per quantificare l'impatto delle tecniche di personalizzazione del modello, come progettazione dei prompt, apprendimento per rinforzo da feedback umano (RLHF), retrieval-augmented generation (RAG) e ottimizzazione di precisione supervisionata (SFT). I report di valutazione riassumono i punteggi in diverse dimensioni, consentendo di effettuare confronti e prendere decisioni in modo rapido. I report più dettagliati presentano esempi degli output del modello con il punteggio più alto e più basso, consentendo di concentrarsi sulle aree che necessitano di maggiore ottimizzazione.
Personalizzazione
Inizia a lavorare velocemente con set di dati, come CrowS-Pairs, TriviaQA e WikiText, e algoritmi curati, come Bert-Score, Rouge e F1. È possibile personalizzare i set di dati di prompt e algoritmi di punteggio specifici per la tua applicazione di IA generativa. La valutazione automatica è disponibile anche come libreria open source in GitHub per poterla eseguire ovunque. I notebook di esempio mostrano come eseguire la valutazione in modo programmatico per qualsiasi FM, inclusi i modelli che non sono in hosting su AWS, e come integrare le valutazioni di FM con SageMaker MLOps e strumenti di governance, come Pipeline SageMaker, Registro dei modelli SageMaker e Schede dei modelli SageMaker.
Valutazioni su base umana
Alcuni criteri di valutazione sono ricchi di sfumature o soggettivi e devono essere valutati secondo il giudizio umano. Oltre alle valutazioni automatiche basate su parametri, puoi chiedere a umani (i tuoi dipendenti o un team di valutazione gestito da AWS) di valutare gli output del modello in base a dimensioni come utilità, tono e aderenza alla voce del marchio. I valutatori umani possono anche verificare la coerenza con le linee guida, la nomenclatura e la voce del marchio specifici dell'azienda. Configura istruzioni personalizzate per indicare al team di valutazione come valutare i prompt, ad esempio utilizzando una classifica o assegnando pollici in alto o in basso.
Valutazioni della qualità del modello
Valuta il FM per determinare se offre risposte di alta qualità per le tue attività di IA generativa specifiche utilizzando valutazioni automatiche e/o eseguite da umani. Valuta l'accuratezza del modello con algoritmi di valutazione specifici, come Bert Score, Rouge e F1, personalizzati per attività di IA generativa specifiche, come sintesi, risposta alle domande e classificazione. Verifica la solidità semantica dell'output del FM a fronte di perturbazioni degli input che conservano la semantica, come ButterFingers, lettere maiuscole casuali e aggiunta o rimozione di spazi bianchi.
Valutazioni della responsabilità del modello
Valuta il rischio che il FM possa aver codificato degli stereotipi nelle categorie di razza/colore, genere/identità di genere, orientamento sessuale, religione, età, nazionalità, disabilità, aspetto fisico e condizione socioeconomica utilizzando valutazioni automatiche e/o eseguite a umani. Inoltre, è possibile valutare il rischio della presenza di contenuti inappropriati. Queste valutazioni possono essere applicate a qualsiasi attività che implichi la generazione di contenuti, tra cui la generazione aperta, la sintesi e la risposta alle domande.
Previsioni del modello
Spiega le previsioni del modello
SageMaker Clarify è integrato con SageMaker Experiments per fornire dei punteggi che riportano le funzionalità che hanno contribuito maggiormente alla previsione di un modello su un input particolare per i modelli tabulari, di elaborazione del linguaggio naturale e di visione artificiale. Per i set di dati tabulari, SageMaker Clarify può anche produrre un grafico di importanza delle funzionalità aggregate che fornisce informazioni dettagliate sul processo di previsione generale del modello. Questi dettagli possono aiutare a stabilire se un particolare input di modello abbia più influenza del previsto sul comportamento generale del modello.
Monitora il modello per rilevare cambiamenti nel comportamento
Le modifiche ai dati in tempo reale possono esporre un nuovo comportamento del modello. Ad esempio, un modello di previsione del rischio di credito addestrato sui dati di una regione geografica potrebbe modificare l'importanza che assegna a varie funzionalità se applicato ai dati di un'altra regione. SageMaker Clarify è integrato con SageMaker Model Monitor per avvisarti tramite sistemi di avviso come CloudWatch se l'importanza delle funzionalità di input cambia, causando il cambiamento del comportamento del modello.