Passa al contenuto principale

Amazon Bedrock

Distillazione di modelli di Amazon Bedrock

Panoramica

Con Amazon Bedrock Model Distillation, puoi utilizzare modelli più piccoli, più veloci e più convenienti che offrono una precisione specifica per i casi d'uso paragonabile a quella dei modelli più avanzati di Amazon Bedrock. I modelli distillati in Amazon Bedrock sono fino al 500% più veloci e fino al 75% meno costosi rispetto a quelli originali, con una perdita di precisione inferiore al 2% per casi d'uso come RAG.

Utilizza modelli più piccoli e più convenienti

Con Model Distillation, i clienti possono selezionare un modello “insegnante” di cui desiderano ottenere la precisione per il loro caso d'uso e quindi selezionare un modello “studente” che desiderano perfezionare. I clienti forniscono anche prompt per il loro caso d'uso. Model Distillation automatizza il processo di generazione di risposte dell'insegnante e l'utilizzo di tali risposte per ottimizzare il modello studente. I modelli studente possono quindi comportarsi come modelli insegnante con una precisione simile a costi ridotti. La distillazione di modelli supporta una varietà di modelli da diversi fornitori, tra cui Amazon Nova Premier (insegnante) e Nova Pro (studente), Claude 3.5 Sonnet v2 (insegnante), Llama 3.3 70B (insegnante) e Llama 3.2 1B/3B (studente). È possibile richiamare modelli personalizzati specifici tramite inferenza su richiesta, contribuendo a ridurre la necessità di un'infrastruttura sempre attiva. Fare riferimento all'elenco dei modelli qui.
Screenshot of a user interface for selecting teacher and student models for distillation, featuring Llama 3.1 models. The teacher model Llama 3.1 405B is selected, and student model options include Llama 3.1 70B and Llama 3.1 8B.

Massimizza le prestazioni dei modelli distillati con la sintesi dei dati proprietaria

L'ottimizzazione di un modello più piccolo ed economico per ottenere una precisione simile a un modello più grande per il tuo caso d'uso specifico è un processo iterativo. Per eliminare parte dell'onere dell'iterazione necessario per ottenere risultati migliori, Model Distillation può scegliere di applicare diversi metodi di sintesi dei dati più adatti al caso d'uso. Ad esempio, Bedrock può espandere il set di dati di addestramento generando prompt simili oppure può generare risposte sintetiche di alta qualità utilizzando le coppie prompt-risposta fornite dal cliente come esempi essenziali.
Screenshot of the AWS Synthetic Data Generation and Model Distillation user interface. The UI enables users to set the maximum response length, choose a distillation input dataset from an S3 location or invocation logs, and provides options to upload data or browse S3 buckets to generate synthetic responses for fine-tuning machine learning models.

Riduci i costi trasferendo facilmente i tuoi dati di produzione

Con l'ottimizzazione tradizionale, i clienti sono tenuti a creare prompt e risposte. Con Model Distillation, i clienti devono solo fornire prompt, che Model Distillation utilizza poi per generare risposte sintetiche e perfezionare i modelli degli studenti. I clienti possono indirizzarci ai loro log di invocazione e anche filtrare i log in base a determinati campi di metadati. La distillazione dei modelli può leggere sia i prompt che le risposte tramite i log delle invocazioni e saltare la generazione di risposte sintetiche nel flusso di lavoro di Model Distillation, riducendo così i costi, non dovendo generare nuovamente le risposte dal modello insegnante. Inizia partendo dagli esempi di codice.
Screenshot of the AWS Synthetic Data Generation interface showing options for model distillation, including setting response length, selecting distillation input dataset, configuring S3 log access, adding metadata, and managing access to input data such as prompts or prompt-response pairs.

Funzione Boost, precisione della previsione delle chiamate con agenti

La chiamata della funzione con agenti rappresenta una funzionalità fondamentale per le moderne applicazioni di intelligenza artificiale, che consente ai modelli di interagire con strumenti, database e API esterni determinando con precisione come e quando invocare funzioni specifiche. Sebbene i modelli più grandi in genere eccellano nell'identificazione delle funzioni appropriate da chiamare e nello sviluppo dei parametri corretti, in genere comportano costi e latenza più elevati. Amazon Bedrock Model Distillation consente ai modelli più piccoli di prevedere con precisione le chiamate della funzione per fornire tempi di risposta notevolmente più rapidi e costi operativi inferiori.