Inferenza di Amazon SageMaker

Implementa e gestisci facilmente modelli di machine learning (ML) per l'inferenza

Cos'è l'inferenza di Amazon SageMaker?

Amazon SageMaker AI semplifica l'implementazione di modelli di ML, inclusi i modelli di fondazione (FM) per fare richieste di inferenza al miglior rapporto prezzo/prestazioni per qualsiasi caso d'uso. Da prestazioni con bassa latenza e alto throughput fino a sessioni di inferenza prolungate, SageMaker AI soddisfa tutte le tue esigenze di inferenza. SageMaker AI è un servizio completamente gestito e si integra con gli strumenti MLOps, in modo da poter dimensionare l'implementazione del modello, ridurre i costi di inferenza, gestire i modelli in modo più efficace in produzione e ridurre il carico operativo.

Vantaggi di SageMaker Inference

Ampia gamma di opzioni di inferenza

Inferenza in tempo reale

Previsioni in tempo reale, interattive e a bassa latenza per casi d'uso con modelli di traffico costante. Puoi implementare il modello su un endpoint completamente gestito e che supporta la scalabilità automatica.

Inferenza serverless

Bassa latenza e velocità di trasmissione effettiva elevata per casi d'uso con schemi di traffico intermittenti. Gli endpoint serverless avviano automaticamente le risorse di elaborazione e le scalano in entrata e in uscita in base al traffico, eliminando la necessità di scegliere i tipi di istanza o gestire le policy di scalabilità.

Asynchronous Inference

Bassa latenza per casi d'uso con payload di grandi dimensioni (fino a 1 GB) o tempi di elaborazione lunghi (fino a un'ora) e con requisiti di latenza quasi in tempo reale. L'inferenza asincrona aiuta a risparmiare sui costi scalando automaticamente il numero di istanze a zero quando non ci sono richieste da elaborare.

Trasformazione in batch

Inferenza offline su batch di dati per casi d'uso con set di dati di grandi dimensioni. Con la trasformazioni in batch, puoi preelaborare i set di dati per rimuovere disturbi o distorsioni e associare i registri di input alle inferenze per facilitare l'interpretazione dei risultati.

Opzioni di inferenza scalabili e convenienti

Endpoint a modello singolo

Un modello su un container ospitato su istanze dedicate o serverless per bassa latenza e velocità di trasmissione effettiva elevata.

Ulteriori informazioni

Endpoint a modello singolo

Più modelli su un singolo endpoint

Ospita più modelli sulla stessa istanza per utilizzare meglio gli acceleratori sottostanti, riducendo i costi di implementazione fino al 50%. È possibile controllare le politiche di scalabilità per ogni FM separatamente, semplificando l'adattamento ai modelli di utilizzo del modello e ottimizzando i costi dell'infrastruttura.

Ulteriori informazioni

Endpoint multi-modello

Pipeline di inferenza seriale

Container multipli che condividono istanze dedicate e le eseguono in sequenza. È possibile utilizzare una pipeline di inferenza per combinare attività di data science di pre-elaborazione, previsione e post-elaborazione.

Ulteriori informazioni

Pipeline di inferenza seriale

Supporto per la maggior parte dei framework e dei server di modelli di machine learning

L'inferenza di Amazon SageMaker supporta algoritmi integrati e immagini Docker predefinite per alcuni dei framework di machine learning più comuni come TensorFlow, PyTorch, ONNX e XGBoost. Se nessuna delle immagini Docker predefinite soddisfa le tue esigenze, puoi creare il tuo container da utilizzare con endpoint multimodello supportati da CPU. L'inferenza SageMaker supporta i server modello più diffusi come TensorFlow Serving, TorchServe, NVIDIA Triton, server multimodello AWS.

Amazon SageMaker AI offre container di deep learning (DLC) specializzati, librerie e strumenti per il parallelismo dei modelli e l'inferenza di modelli di grandi dimensioni (LMI), per aiutarti a migliorare le prestazioni dei modelli di fondazione. Con queste opzioni, è possibile implementare rapidamente modelli, inclusi i modelli di fondazione (FM) praticamente per qualsiasi caso d'uso.


Ulteriori informazioni
 

TensorFlow
PyTorch
mxnet
Logo di Hugging Face
TensorFlow

Ottieni prestazioni di inferenza elevate a basso costo

Ottieni prestazioni di inferenza elevate a basso costo

Il nuovo kit di strumenti di ottimizzazione dell'inferenza di Amazon SageMaker AI offre un throughput fino a 2 volte superiore riducendo i costi fino al 50% circa per i modelli di IA generativa come Llama 3, Mistral e Mixtral. Ad esempio, con un modello Llama 3-70B, puoi ottenere fino a ~2400 tokens/sec su un'istanza ml.p5.48xlarge rispetto a ~1200 tokens/sec in precedenza senza alcuna ottimizzazione. È possibile selezionare una tecnica di ottimizzazione del modello come la decodifica speculativa, la quantizzazione e la compilazione o combinare diverse tecniche, applicarle ai modelli, eseguire benchmark per valutare l'impatto delle tecniche sulla qualità dell'output e sulle prestazioni di inferenza e distribuire i modelli in pochi clic.

Un'immagine che mostra le metriche di valutazione in un colpo d'occhio

Implementa modelli sull'infrastruttura più performante o passa alla versione serverless

Amazon SageMaker AI offre più di 70 tipi di istanze con diversi livelli di elaborazione e memoria, tra cui istanze Amazon EC2 Inf1 basate su AWS Inferentia, chip di inferenza ML ad alte prestazioni progettati e realizzati da AWS e istanze GPU come Amazon EC2 G4dn. Oppure, scegli Inferenza serverless Amazon SageMaker per dimensionare facilmente fino a migliaia di modelli per endpoint, milioni di transazioni al secondo (TPS) di velocità di trasmissione effettiva e latenze di overhead inferiori a 10 millisecondi.

Un'immagine che mostra le caratteristiche dei chip di inferenza ML

Shadow test per convalidare le prestazioni dei modelli di ML

Amazon SageMaker AI semplifica la valutazione di un nuovo modello eseguendo lo shadow testing delle prestazioni rispetto al modello attualmente implementato da SageMaker mediante richieste di inferenza in tempo reale. Lo shadow testing può aiutarti a rilevare potenziali errori di configurazione e problemi di prestazioni prima che abbiano un impatto sugli utenti finali. Con SageMaker AI, non è necessario investire settimane di tempo nella creazione di un'infrastruttura di shadow testing. Basta selezionare un modello di produzione che si desidera testare e SageMaker AI implementa automaticamente il nuovo modello in modalità shadow e indirizza una copia delle richieste di inferenza ricevute dal modello di produzione al nuovo modello in tempo reale.

Un'immagine che illustra il processo di shadow testing

Dimensionamento automatico per l'elasticità

È possibile utilizzare policy di dimensionamento per dimensionare automaticamente le risorse di calcolo sottostanti per adattarsi alle fluttuazioni delle richieste di inferenza. Puoi controllare le policy di dimensionamento per ogni modello di ML separatamente per gestire facilmente le modifiche nell'utilizzo del modello, ottimizzando al contempo i costi dell'infrastruttura.

Immagine che mostra i gruppi a dimensionamento automatico

Miglioramento della latenza e routing intelligente

È possibile ridurre la latenza di inferenza per i modelli di ML tramite il routing intelligente di nuove richieste di inferenza verso istanze disponibili invece di un instradamento casuale verso istanze già occupate nell'elaborazione di richieste di inferenza, ottenendo così una latenza di inferenza inferiore del 20%.

Riduci il carico operativo e accelera il time-to-value

Hosting e gestione dei modelli completamente gestiti

In quanto servizio completamente gestito, Amazon SageMaker AI si occupa della configurazione e della gestione delle istanze, delle compatibilità delle versioni software e delle versioni di patch. Fornisce inoltre metriche e registri integrati per gli endpoint che puoi utilizzare per monitorare e ricevere avvisi.

Un'immagine che mostra il flusso di gestione dei modelli

Integrazione incorporata con le funzionalità MLOps

Le funzionalità di implementazione del modello di Amazon SageMaker AI sono integrate in modo nativo con le funzionalità MLOps, tra cui SageMaker Pipelines (automazione e orchestrazione del flusso di lavoro), SageMaker Projects (CI/CD per ML), SageMaker Feature Store (gestione delle funzionalità), SageMaker Model Registry (catalogo di modelli e artefatti per tracciare la derivazione e supportare i flussi di lavoro di approvazione automatizzati), SageMaker Clarify (rilevamento delle distorsioni) e SageMaker Model Monitor (rilevamento della deriva di modelli e concetti). Di conseguenza, indipendentemente dal fatto che si implementino un solo modello o decine di migliaia, SageMaker AI aiuta a ridurre il sovraccarico operativo collegato all'implementazione, al dimensionamento e alla gestione dei modelli di ML, velocizzandone al contempo il passaggio in produzione.

Immagine che mostra il diagramma di flusso del modello di addestramento