Passa al contenuto principale

Cosa sono i modelli di IA generativa?

I modelli di IA generativa hanno punti di forza e limiti. A seconda della complessità, delle prestazioni, della privacy e dei requisiti di costo del proprio caso d’uso, alcuni modelli potrebbero rappresentare una scelta migliore di altri. Questa guida esplora i fattori da prendere in considerazione e le migliori pratiche per la selezione di un modello di IA generativa.

I modelli di intelligenza artificiale generativa possono creare testo, immagini, contenuti audio e video originali e significativi, in base all’input del linguaggio naturale degli utenti. Le organizzazioni li utilizzano per tutto, dall’alimentazione dei chatbot alla creazione di modelli di progettazione e alla risoluzione di problemi complessi nel campo della biologia. Esistono migliaia di modelli di IA proprietari e open-source e ogni giorno vengono rilasciati nuovi modelli e versioni migliorate.

Nonostante la loro flessibilità e versatilità, i modelli di IA generativa non sono una soluzione completa per tutti i casi d’uso. I team IA devono selezionare e valutare attentamente il modello migliore che ottimizzi costi e prestazioni. La valutazione dei modelli è complessa. Benchmark popolari come Helm e la classifica Hugging Face forniscono soltanto una visione generale delle prestazioni di un particolare modello di IA nelle attività comuni in un linguaggio naturale. I team IA devono adottare strategie diverse per valutare l’output del modello per l’immissione di dati personalizzati, quindi selezionare quella più adatta alle loro esigenze.

Come vengono valutati i modelli di IA generativa per i diversi casi d’uso?

Ecco alcuni fattori da tenere in considerazione quando si sceglie un modello di IA appropriato per il proprio caso d’uso.

Modalità

La modalità si riferisce al tipo di dati che il modello elabora: embedding, immagini (visione) o testo. Alcuni modelli sono unimodali e possono elaborare in modo efficiente un singolo tipo di dati. Altri sono multimodali e possono integrare molteplici tipi di dati, ma possono essere più adatti per un tipo rispetto ad altri. Ad esempio, modelli come Claude, Llama 3.1 o Titan Text G1 sono adatti per attività basate su testo, mentre Stable Diffusion XL e Titan Image Generator v2 sono più adatti per attività di visione. Allo stesso modo, il modello Titan Multimodal Embeddings G1 è preferito per tradurre qualsiasi immagine o testo di input in un embedding che contiene il significato semantico dell’immagine e del testo nello stesso spazio semantico.

Dimensione del modello

La dimensione del modello è il numero di parametri o variabili di configurazione interne al modello. Può variare da diversi milioni a oltre 100 miliardi e la maggior parte dei modelli ha tra 10 e 100 miliardi di parametri. La dimensione del modello definisce direttamente la capacità del modello di apprendere dai dati. I modelli con più parametri offrono prestazioni migliori perché sono in grado di comprendere a fondo i nuovi dati. Tuttavia, sono più costosi da personalizzare e usare.

Latenza di inferenza

Generalmente, la latenza di inferenza è un problema negli scenari in tempo reale, in cui gli utenti delle applicazioni IA possono aspettarsi risposte immediate. È il tempo totale impiegato da un modello per elaborare l’input e restituire l’output in base alla lunghezza dell’input. I modelli di IA generativa con strutture complesse possono avere velocità di inferenza inferiori rispetto ai modelli più piccoli. Tuttavia, la latenza di inferenza varia a seconda dei prompt previsti e delle prestazioni del modello. Anche un numero maggiore di token (come lettere, punteggiatura, eccetera) nell’input dell’utente finale può aumentare la latenza.

Finestra contestuale

La finestra contestuale del modello di IA generativa è il numero di token che può “ricordare” per il contesto in qualsiasi momento. Un modello con una finestra contestuale più ampia conserva una parte più grande della conversazione precedente e fornisce risposte più pertinenti. Pertanto, finestre contestuali più ampie sono preferite per attività complesse come il riepilogo di documenti lunghi o l’alimentazione di conversazioni con molte battute.

Considerazioni sui prezzi

I costi di gestione dei modelli includono i costi di uso per i modelli proprietari e i costi di calcolo e memoria. Le spese operative possono variare da modello a modello in base ai carichi di lavoro. La ponderazione dei costi rispetto ai vantaggi garantisce il massimo valore per il tuo investimento. Ad esempio, l’esecuzione di Claude 2 o Command R+ comporta costi sulla base dell’uso, poiché si tratta di modelli proprietari, mentre l’implementazione di Llama 2 7B comporta costi di calcolo inferiori. Tuttavia, se i modelli proprietari offrono una precisione o un’efficienza significativamente migliori per l’attività, il loro costo aggiuntivo potrebbe essere giustificato.

Qualità della risposta

È possibile valutare la qualità della risposta di un modello di IA usando svariate metriche, come

  • Precisione: la frequenza con cui le risposte del modello sono corrette.
  • Rilevanza: quanto sono appropriate le risposte all’input dato. 
  • Robustezza: la capacità del modello di gestire input intenzionalmente fuorvianti, progettati per confonderlo.
  • Tossicità: la percentuale di contenuti inappropriati o distorsioni negli output del modello.

Tipicamente, le metriche sono misurate rispetto a una linea di base preconfigurata. È consigliabile valutare la qualità della risposta di alcuni modelli diversi sullo stesso set di dati di input e selezionare quello che fornisce la massima qualità di risposta.

Come si svolge il processo di selezione del modello di IA generativa?

La selezione del modello di IA generativa richiede innanzitutto di determinare i requisiti specifici della tua applicazione di intelligenza artificiale. Devi capire bene cosa si aspettano gli utenti e avere ben chiari i requisiti di elaborazione dei dati, le considerazioni sull’implementazione e altri dettagli all’interno della tua azienda e del tuo settore. A questo punto, puoi eliminare diversi modelli di intelligenza artificiale conducendo test di qualità fino a trovare il modello più adatto alle tue esigenze.

Fase 1 - Scrematura iniziale di selezione del modello

Inizia il processo con una scrematura dei modelli, selezionando circa 20 modelli tra le migliaia disponibili che soddisfano le tue esigenze. Con la scelta tra modelli open source e proprietari sei già a metà dell’opera. Una volta determinato ciò, puoi scremare ulteriormente i modelli valutandoli in base a criteri chiave come modalità, dimensione del modello, finestra di contesto, ecc., che sono stati descritti nella sezione precedente.

Confronto tra i modelli di IA generativa open source e proprietari

I modelli open source offrono flessibilità e consentono ai team di eseguire il fine-tuning o riaddestrare completamente il modello su dati proprietari. Ciò può essere particolarmente utile nei settori specializzati in cui i modelli per uso generico non hanno prestazioni adeguate in casi d’uso di nicchia. Ad esempio, una grande compagnia assicurativa potrebbe preferire l’addestramento di un modello open source su dati personalizzati invece dell’utilizzo di modelli proprietari rivolti al settore finanziario che non soddisfano del tutto i propri requisiti specifici.

Tuttavia, i modelli open source richiedono considerazioni aggiuntive. Possono introdurre rischi a livello legale e di sicurezza, richiedendo alle organizzazioni di applicare le proprie misure di conformità e di verificare attentamente i termini di licenza. I modelli proprietari, invece, offrono generalmente funzionalità di sicurezza integrate, garanzie legali relative ai dati di addestramento e agli output generati, oltre a garanzie sulla conformità normativa, riducendo così il carico operativo per le aziende che danno priorità alla mitigazione dei rischi.

Fase 2 - Ispezione dell’output e ulteriore restringimento dell’elenco

In questa fase, il tuo obiettivo è identificare i 3 migliori modelli di IA generativa più adatti al tuo caso d’uso. Innanzitutto, identifica un sottoinsieme di prompt di test che corrispondono al tuo caso d’uso. Quindi, ispeziona visivamente l’output di ciascun modello per i prompt specifici. Cerca output con maggiori dettagli che corrispondano meglio ai tuoi input. Seleziona i primi 3 che generano gli output più pertinenti, dettagliati e accurati.

Amazon SageMaker Clarify è la soluzione più adatta per questa fase. Valuta automaticamente i modelli di fondazione (FM) per il tuo caso d’uso di IA generativa utilizzando metriche quali precisione, robustezza e tossicità per supportare la tua iniziativa di IA responsabile.

Fase 3 - Utilizzo della valutazione comparativa basata sui casi d’uso

Ora puoi valutare i modelli di intelligenza artificiale più selezionati in modo più dettagliato in base a prompt e output predefiniti per il tuo set di dati di test specifico. Il fattore chiave in questo caso è disporre di un set completo di dati di test che copra tutti gli aspetti del caso d’uso con diverse varianti. Dovresti anche avere un output ideale corrispondente per valutare statisticamente quale output del modello si avvicina di più al tuo output ideale.

Amazon Bedrock fornisce strumenti di valutazione per valutare, confrontare e selezionare il modello di intelligenza artificiale per il tuo caso d’uso con valutazione del modello.

Puoi adottare tre approcci di valutazione.

Programmatico

Valuta gli output del modello utilizzando algoritmi e metriche tradizionali in linguaggio naturale come BERT Score, F1 e altre tecniche di corrispondenza esatta. Amazon Bedrock ti consente di raggiungere questo obiettivo utilizzando set di dati prompt integrati oppure di tipo bring your own.

L’essere umano nel ciclo

Chiedi a valutatori umani (membri del tuo team, un campione di utenti finali o valutatori di intelligenza artificiale professionisti) di valutare l’output di tutti e tre i modelli in base a metriche predeterminate del modello. Possono confrontare manualmente gli output con gli output ideali o, se il caso d’uso è troppo ampio, possono valutare e contrassegnare l’output usando il buon senso.
Con Amazon Bedrock, puoi valutare gli output del modello con la tua forza lavoro o fare in modo che AWS gestisca le tue valutazioni sulle risposte a set di dati prompt personalizzati con metriche come pertinenza, stile e allineamento alla voce del marchio o metriche integrate.

Un altro modello di intelligenza artificiale come valutatore

In questo approccio, un altro modello di intelligenza artificiale valuta l’output dei tre modelli in modo imparziale. Le prestazioni migliori si hanno per i casi d’uso in cui gli output sono ben definiti e la loro somiglianza con l’output ideale è misurabile statisticamente. Amazon Bedrock ti consente di valutare gli output del modello utilizzando un altro modello di intelligenza artificiale in modalità LLM-as-a-judge. Puoi utilizzare i tuoi set di dati prompt personalizzati con metriche quali la correttezza, la completezza e la dannosità, nonché con metriche di IA responsabile come il rifiuto della risposta e la dannosità.

Fase 4 - Selezione finale

Utilizza i dati di valutazione insieme all’analisi dei costi e delle prestazioni per scegliere il modello definitivo. Con Amazon Bedrock, puoi utilizzare la funzionalità di confronto nelle valutazioni per visualizzare i risultati di eventuali modifiche apportate ai prompt e ai modelli da valutare. Visualizza tutte le tue analisi su un’unica piattaforma e seleziona il modello che offre il miglior equilibrio tra prestazioni, costi e rischi associati e utilizza le risorse in modo efficiente.

La scelta del modello di IA generativa più adatto al tuo caso d’uso richiede un approccio strutturato che bilanci capacità tecniche, esigenze aziendali e vincoli operativi. La chiave è allineare la decisione ai requisiti specifici del caso d’uso. Valuta attentamente i modelli in base a fattori quali modalità, dimensioni, capacità di elaborazione dei dati e considerazioni sull’implementazione. In definitiva, il modello giusto migliora l’efficienza e l’innovazione e fornisce una base scalabile per i futuri progressi basati sull’intelligenza artificiale nella tua organizzazione.