Cos'è l'inferenza di Amazon SageMaker?
Amazon SageMaker AI semplifica l'implementazione di modelli di ML, inclusi i modelli di fondazione (FM) per fare richieste di inferenza al miglior rapporto prezzo/prestazioni per qualsiasi caso d'uso. Da prestazioni con bassa latenza e alto throughput fino a sessioni di inferenza prolungate, SageMaker AI soddisfa tutte le tue esigenze di inferenza. SageMaker AI è un servizio completamente gestito e si integra con gli strumenti MLOps, in modo da poter dimensionare l'implementazione del modello, ridurre i costi di inferenza, gestire i modelli in modo più efficace in produzione e ridurre il carico operativo.
Vantaggi di SageMaker Inference
Ampia gamma di opzioni di inferenza
Inferenza in tempo reale
Inferenza serverless
Asynchronous Inference
Trasformazione in batch
Opzioni di inferenza scalabili e convenienti
Endpoint a modello singolo
Un modello su un container ospitato su istanze dedicate o serverless per bassa latenza e velocità di trasmissione effettiva elevata.

Più modelli su un singolo endpoint
Ospita più modelli sulla stessa istanza per utilizzare meglio gli acceleratori sottostanti, riducendo i costi di implementazione fino al 50%. È possibile controllare le politiche di scalabilità per ogni FM separatamente, semplificando l'adattamento ai modelli di utilizzo del modello e ottimizzando i costi dell'infrastruttura.

Pipeline di inferenza seriale
Container multipli che condividono istanze dedicate e le eseguono in sequenza. È possibile utilizzare una pipeline di inferenza per combinare attività di data science di pre-elaborazione, previsione e post-elaborazione.

Supporto per la maggior parte dei framework e dei server di modelli di machine learning
L'inferenza di Amazon SageMaker supporta algoritmi integrati e immagini Docker predefinite per alcuni dei framework di machine learning più comuni come TensorFlow, PyTorch, ONNX e XGBoost. Se nessuna delle immagini Docker predefinite soddisfa le tue esigenze, puoi creare il tuo container da utilizzare con endpoint multimodello supportati da CPU. L'inferenza SageMaker supporta i server modello più diffusi come TensorFlow Serving, TorchServe, NVIDIA Triton, server multimodello AWS.
Amazon SageMaker AI offre container di deep learning (DLC) specializzati, librerie e strumenti per il parallelismo dei modelli e l'inferenza di modelli di grandi dimensioni (LMI), per aiutarti a migliorare le prestazioni dei modelli di fondazione. Con queste opzioni, è possibile implementare rapidamente modelli, inclusi i modelli di fondazione (FM) praticamente per qualsiasi caso d'uso.





Ottieni prestazioni di inferenza elevate a basso costo
Ottieni prestazioni di inferenza elevate a basso costo
Il nuovo kit di strumenti di ottimizzazione dell'inferenza di Amazon SageMaker AI offre un throughput fino a 2 volte superiore riducendo i costi fino al 50% circa per i modelli di IA generativa come Llama 3, Mistral e Mixtral. Ad esempio, con un modello Llama 3-70B, puoi ottenere fino a ~2400 tokens/sec su un'istanza ml.p5.48xlarge rispetto a ~1200 tokens/sec in precedenza senza alcuna ottimizzazione. È possibile selezionare una tecnica di ottimizzazione del modello come la decodifica speculativa, la quantizzazione e la compilazione o combinare diverse tecniche, applicarle ai modelli, eseguire benchmark per valutare l'impatto delle tecniche sulla qualità dell'output e sulle prestazioni di inferenza e distribuire i modelli in pochi clic.

Implementa modelli sull'infrastruttura più performante o passa alla versione serverless
Amazon SageMaker AI offre più di 70 tipi di istanze con diversi livelli di elaborazione e memoria, tra cui istanze Amazon EC2 Inf1 basate su AWS Inferentia, chip di inferenza ML ad alte prestazioni progettati e realizzati da AWS e istanze GPU come Amazon EC2 G4dn. Oppure, scegli Inferenza serverless Amazon SageMaker per dimensionare facilmente fino a migliaia di modelli per endpoint, milioni di transazioni al secondo (TPS) di velocità di trasmissione effettiva e latenze di overhead inferiori a 10 millisecondi.

Shadow test per convalidare le prestazioni dei modelli di ML
Amazon SageMaker AI semplifica la valutazione di un nuovo modello eseguendo lo shadow testing delle prestazioni rispetto al modello attualmente implementato da SageMaker mediante richieste di inferenza in tempo reale. Lo shadow testing può aiutarti a rilevare potenziali errori di configurazione e problemi di prestazioni prima che abbiano un impatto sugli utenti finali. Con SageMaker AI, non è necessario investire settimane di tempo nella creazione di un'infrastruttura di shadow testing. Basta selezionare un modello di produzione che si desidera testare e SageMaker AI implementa automaticamente il nuovo modello in modalità shadow e indirizza una copia delle richieste di inferenza ricevute dal modello di produzione al nuovo modello in tempo reale.

Dimensionamento automatico per l'elasticità
È possibile utilizzare policy di dimensionamento per dimensionare automaticamente le risorse di calcolo sottostanti per adattarsi alle fluttuazioni delle richieste di inferenza. Puoi controllare le policy di dimensionamento per ogni modello di ML separatamente per gestire facilmente le modifiche nell'utilizzo del modello, ottimizzando al contempo i costi dell'infrastruttura.

Miglioramento della latenza e routing intelligente
È possibile ridurre la latenza di inferenza per i modelli di ML tramite il routing intelligente di nuove richieste di inferenza verso istanze disponibili invece di un instradamento casuale verso istanze già occupate nell'elaborazione di richieste di inferenza, ottenendo così una latenza di inferenza inferiore del 20%.
Riduci il carico operativo e accelera il time-to-value
Hosting e gestione dei modelli completamente gestiti
In quanto servizio completamente gestito, Amazon SageMaker AI si occupa della configurazione e della gestione delle istanze, delle compatibilità delle versioni software e delle versioni di patch. Fornisce inoltre metriche e registri integrati per gli endpoint che puoi utilizzare per monitorare e ricevere avvisi.

Integrazione incorporata con le funzionalità MLOps
Le funzionalità di implementazione del modello di Amazon SageMaker AI sono integrate in modo nativo con le funzionalità MLOps, tra cui SageMaker Pipelines (automazione e orchestrazione del flusso di lavoro), SageMaker Projects (CI/CD per ML), SageMaker Feature Store (gestione delle funzionalità), SageMaker Model Registry (catalogo di modelli e artefatti per tracciare la derivazione e supportare i flussi di lavoro di approvazione automatizzati), SageMaker Clarify (rilevamento delle distorsioni) e SageMaker Model Monitor (rilevamento della deriva di modelli e concetti). Di conseguenza, indipendentemente dal fatto che si implementino un solo modello o decine di migliaia, SageMaker AI aiuta a ridurre il sovraccarico operativo collegato all'implementazione, al dimensionamento e alla gestione dei modelli di ML, velocizzandone al contempo il passaggio in produzione.

Clienti
Risorse per SageMaker Inference
Novità
Total results: 134
- Data (dalla più alla meno recente)
-
30/01/2025
-
11/12/2024
-
06/12/2024
-
06/12/2024
-
04/12/2024