Amazon SageMaker Clarify

Valuta i modelli e spiega le previsioni del modello

Cos'è Amazon SageMaker Clarify?

Amazon SageMaker Clarify fornisce strumenti personalizzati per ottenere maggiori informazioni sui tuoi modelli e dati di ML, basati su metriche quali precisione, robustezza, tossicità e distorsioni per migliorare la qualità del modello e supportare un'iniziativa di intelligenza artificiale responsabile. Con l'avvento dell'IA generativa, i data scientist e gli ingegneri ML possono sfruttare i modelli di fondazione (FM) disponibili al pubblico per accelerare la velocità di commercializzazione. Per eliminare il problema della valutazione e della selezione dell'FM giusto per il tuo caso d'uso, Amazon SageMaker Clarify supporta la valutazione dei FM per aiutarti a valutare, confrontare e selezionare rapidamente l'FM migliore per il tuo caso d'uso in base a una varietà di criteri e diverse attività in pochi minuti. Ti consente di adottare i FM più velocemente e con sicurezza. Per i modelli tabulari, di visione artificiale e di serie temporali, SageMaker Clarify offre la spiegabilità del modello durante lo sviluppo del modello o l'implementazione post-modello. È possibile utilizzare i report sulle distorsioni e sulla spiegabilità per identificare potenziali problemi e quindi indirizzare gli sforzi per migliorare la precisione, eliminare le distorsioni e aumentare le prestazioni.

Vantaggi di SageMaker Clarify

Valuta automaticamente i modelli di fondazione (FM) per il tuo caso d'uso di IA generativa con metriche quali precisione, robustezza e tossicità per supportare la tua iniziativa di IA responsabile. Per criteri e contenuti delicati che richiedono un giudizio umano sofisticato, puoi decidere di sfruttare la tua forza lavoro o utilizzare una forza lavoro gestita fornita da AWS per valutare le risposte del modello.
Spiega come le funzionalità di input contribuiscono alle previsioni di modelli durante lo sviluppo e l'inferenza dei modelli. Valuta il tuo FM durante la personalizzazione grazie a valutazioni automatiche ed eseguite da umani.
Genera metriche, report ed esempi di facile comprensione durante la personalizzazione del modello di fondazione (FM) e il flusso di lavoro MLOps.
Rileva potenziali bias e altri rischi, come prescritto da linee guida quali ISO 42001, durante la preparazione dei dati, la personalizzazione del modello e nei modelli implementati.

Valuta i modelli di fondazione

Procedura guidata e report di valutazione

Procedura guidata e report di valutazione

Per avviare una valutazione, seleziona il modello, l'attività e il tipo di valutazione: eseguita da umani o report automatici. Utilizza i risultati della valutazione per scegliere il modello migliore per il caso d'uso e per quantificare l'impatto delle tecniche di personalizzazione del modello, come progettazione dei prompt, apprendimento per rinforzo da feedback umano (RLHF), retrieval-augmented generation (RAG) e ottimizzazione di precisione supervisionata (SFT). I report di valutazione riassumono i punteggi in diverse dimensioni, consentendo di effettuare confronti e prendere decisioni in modo rapido. I report più dettagliati presentano esempi degli output del modello con il punteggio più alto e più basso, consentendo di concentrarsi sulle aree che necessitano di maggiore ottimizzazione.
Personalizzazione

Personalizzazione

Inizia a lavorare velocemente con set di dati, come CrowS-Pairs, TriviaQA e WikiText, e algoritmi curati, come Bert-Score, Rouge e F1. È possibile personalizzare i set di dati di prompt e algoritmi di punteggio specifici per la tua applicazione di IA generativa. La valutazione automatica è disponibile anche come libreria open source in GitHub per poterla eseguire ovunque. I notebook di esempio mostrano come eseguire la valutazione in modo programmatico per qualsiasi FM, inclusi i modelli che non sono in hosting su AWS, e come integrare le valutazioni di FM con SageMaker MLOps e strumenti di governance, come Pipeline SageMaker, Registro dei modelli SageMaker e Schede dei modelli SageMaker.
Valutazioni su base umana

Valutazioni su base umana

Alcuni criteri di valutazione sono ricchi di sfumature o soggettivi e devono essere valutati secondo il giudizio umano. Oltre alle valutazioni automatiche basate su parametri, puoi chiedere a umani (i tuoi dipendenti o un team di valutazione gestito da AWS) di valutare gli output del modello in base a dimensioni come utilità, tono e aderenza alla voce del marchio. I valutatori umani possono anche verificare la coerenza con le linee guida, la nomenclatura e la voce del marchio specifici dell'azienda. Configura istruzioni personalizzate per indicare al team di valutazione come valutare i prompt, ad esempio utilizzando una classifica o assegnando pollici in alto o in basso.
Valutazioni della qualità del modello

Valutazioni della qualità del modello

Valuta il FM per determinare se offre risposte di alta qualità per le tue attività di IA generativa specifiche utilizzando valutazioni automatiche e/o eseguite da umani. Valuta l'accuratezza del modello con algoritmi di valutazione specifici, come Bert Score, Rouge e F1, personalizzati per attività di IA generativa specifiche, come sintesi, risposta alle domande e classificazione. Verifica la solidità semantica dell'output del FM a fronte di perturbazioni degli input che conservano la semantica, come ButterFingers, lettere maiuscole casuali e aggiunta o rimozione di spazi bianchi.
Valutazioni della responsabilità del modello

Valutazioni della responsabilità del modello

Valuta il rischio che il FM possa aver codificato degli stereotipi nelle categorie di razza/colore, genere/identità di genere, orientamento sessuale, religione, età, nazionalità, disabilità, aspetto fisico e condizione socioeconomica utilizzando valutazioni automatiche e/o eseguite a umani. Inoltre, è possibile valutare il rischio della presenza di contenuti inappropriati. Queste valutazioni possono essere applicate a qualsiasi attività che implichi la generazione di contenuti, tra cui la generazione aperta, la sintesi e la risposta alle domande.

Previsioni del modello

Screenshot del grafico dell'importanza di una caratteristica per un modello addestrato in SageMaker Experiments

Spiega le previsioni del modello

SageMaker Clarify è integrato con SageMaker Experiments per fornire dei punteggi che riportano le funzionalità che hanno contribuito maggiormente alla previsione di un modello su un input particolare per i modelli tabulari, di elaborazione del linguaggio naturale e di visione artificiale. Per i set di dati tabulari, SageMaker Clarify può anche produrre un grafico di importanza delle funzionalità aggregate che fornisce informazioni dettagliate sul processo di previsione generale del modello. Questi dettagli possono aiutare a stabilire se un particolare input di modello abbia più influenza del previsto sul comportamento generale del modello.
Screenshot del monitoraggio dell'importanza delle caratteristiche in SageMaker Model Monitor

Monitora il modello per rilevare cambiamenti nel comportamento

Le modifiche ai dati in tempo reale possono esporre un nuovo comportamento del modello. Ad esempio, un modello di previsione del rischio di credito addestrato sui dati di una regione geografica potrebbe modificare l'importanza che assegna a varie funzionalità se applicato ai dati di un'altra regione. SageMaker Clarify è integrato con SageMaker Model Monitor per avvisarti tramite sistemi di avviso come CloudWatch se l'importanza delle funzionalità di input cambia, causando il cambiamento del comportamento del modello.

Rilevamento dei bias

Screenshot dei parametri di errore durante la preparazione dei dati in SageMaker Data Wrangler

Identificazione degli squilibri nei dati

SageMaker Clarify aiuta a identificare potenziali distorsioni durante la preparazione dei dati senza scrivere codice. Specifica le funzioni di input, come il sesso o l'età, e SageMaker Clarify esegue un processo di analisi per rilevare potenziali distorsioni in tali funzioni. SageMaker Clarify fornisce quindi un rapporto visivo con una descrizione dei parametri e delle misurazioni di possibili distorsioni, in modo da poter identificare i passaggi per correggere tali distorsioni. In caso di squilibri, puoi utilizzare SageMaker Data Wrangler per bilanciare i tuoi dati. SageMaker Data Wrangler offre tre operatori per il bilanciamento: sottocampionamento casuale, sovracampionamento casuale e SMOTE per ribilanciare i dati nei set di dati sbilanciati.

Screenshot dei parametri di errore in un modello addestrato in SageMaker Experiments

Controlla il modello addestrato per rilevare le distorsioni

Dopo aver addestrato il modello, potrai eseguire un'analisi della distorsione di SageMaker Clarify tramite Esperimenti Amazon SageMaker per controllare la presenza di potenziali distorsioni nel tuo modello, come ad esempio le previsioni che producono un risultato negativo più frequentemente per un gruppo che per un altro. Specifichi le caratteristiche di input rispetto alle quali desideri misurare la distorsione nei risultati del modello, e SageMaker esegue un'analisi e fornisce un rapporto visivo che identifica i diversi tipi di distorsione per ciascuna caratteristica. Il metodo open source di AWS Fair Bayesian Optimization può aiutare a mitigare le distorsioni ottimizzando gli iperparametri di un modello.

Screenshot del monitoraggio di errori in SageMaker Model Monitor

Monitora il modello implementato per individuare eventuali distorsioni

La distorsione può essere introdotta o esacerbata nei modelli ML distribuiti quando i dati di addestramento differiscono dai dati in tempo reale che il modello vede durante l'implementazione. Ad esempio, i risultati di un modello per la previsione dei prezzi delle case possono diventare distorti se i tassi ipotecari utilizzati per addestrare il modello differiscono dai tassi ipotecari attuali. Le funzionalità di rilevamento delle distorsioni di SageMaker Clarify sono integrate in Amazon SageMaker Model Monitor, in modo che quando SageMaker rileva distorsioni oltre una certa soglia, generi automaticamente delle metriche che possono essere visualizzate in Amazon SageMaker Studio e tramite metriche e avvisi Amazon CloudWatch.

Novità

  • Data (dalla più alla meno recente)
Nessun risultato trovato
1