Infrastruttura di AWS Machine Learning

Infrastruttura ad alte prestazioni, dimensionabile e conveniente per qualsiasi carico di lavoro

Il machine learning viene utilizzato in AWS più che in qualsiasi altro luogo

Sempre più clienti, in una serie di settori diversi, scelgono AWS rispetto ad altri cloud per creare, addestrare e implementare le proprie applicazioni di machine learning (ML). AWS offre la più ampia scelta di opzioni di calcolo efficaci, reti ad alta velocità e archiviazione dimensionabile ad alte prestazioni per qualsiasi progetto o applicazione di ML.

Ogni progetto di ML è diverso e con AWS puoi personalizzare l'infrastruttura per soddisfare le tue esigenze di prestazioni e budget. Dall'utilizzo del framework di ML più adatto al tuo team, alla selezione della piattaforma hardware giusta per ospitare i tuoi modelli di ML, AWS offre un'ampia scelta di servizi per soddisfare le tue necessità.

Le aziende hanno individuato nuovi modi per sfruttare il ML per i motori per suggerimenti, l'individuazione di oggetti, gli assistenti vocali, il rilevamento delle frodi e altro ancora. Nonostante l'uso del ML stia guadagnando terreno, l'addestramento e l'implementazione dei modelli di ML sono costosi, i tempi di sviluppo dei modelli sono lunghi e procurarsi la giusta quantità di infrastruttura per soddisfare le mutevoli condizioni aziendali può essere impegnativo. I servizi di infrastruttura ML di AWS eliminano le barriere all'adozione del ML grazie a prestazioni elevate, costi contenuti e grande flessibilità.

Infrastruttura ML di AWS: prestazioni elevate, costi contenuti e grande flessibilità (3:20)

Scegli da un'ampia gamma di servizi di machine learning

Il grafico seguente illustra la profondità e l'ampiezza dei servizi offerti da AWS. I servizi del flusso di lavoro, mostrati nel livello superiore, facilitano la gestione e il dimensionamento dell'infrastruttura ML sottostante. Il livello successivo evidenzia che l'infrastruttura ML di AWS supporta tutti i principali framework di ML. Il livello inferiore mostra esempi di servizi di calcolo, reti e archiviazione che costituiscono i blocchi fondamentali dell'infrastruttura ML.

Scegli da un'ampia gamma di servizi di machine learning

Servizi di infrastruttura di machine learning

Lo sviluppo tradizionale del ML è un processo complesso, costoso e iterativo. Innanzitutto, è necessario preparare i dati di esempio per l'addestramento di un modello. Quindi, gli sviluppatori devono scegliere l'algoritmo o il framework da utilizzare per costruire il modello. Devono poi addestrare il modello su come fare previsioni e regolarlo in modo che fornisca le migliori previsioni possibili. Infine, devono integrare il modello nella loro applicazione e implementare tale applicazione su un'infrastruttura che verrà dimensionata.

  • Prepara
  • I data scientist dedicano spesso molto tempo all'esplorazione e alla pre-elaborazione, o "wrangling", dei dati di esempio, prima di utilizzare tali dati per l'addestramento dei modelli. Per la pre-elaborazione, i dati vengono in genere recuperati in un repository, filtrati e modificati per ripulirli e facilitarne l'esplorazione, preparati o trasformati in set di dati significativi eliminando le parti non desiderate o non necessarie ed infine etichettati.

    Sfida Soluzione AWS Come
    Etichettatura manuale dei dati Amazon Mechanical Turk Fornisce una forza lavoro umana scalabile e on demand per completare le attività.
    Etichettatura manuale dei dati Amazon SageMaker Ground Truth Automatizza l'etichettatura addestrando Ground Truth tramite dati etichettati dagli esseri umani, in modo che il servizio impari a etichettare i dati in modo indipendente.
    Gestione e dimensionamento dell'elaborazione dei dati Elaborazione Amazon SageMaker Estende un'esperienza completamente gestita ai carichi di lavoro di elaborazione dei dati. Consente di connettersi all'archiviazione esistente o alle origini dati sul file system, aumentare le risorse necessarie per eseguire il lavoro, salvare l'output in un archivio permanente ed esaminare i log e i parametri.
    Gestione di grandi quantità di dati necessari per addestrare i modelli Amazon EMR Elabora grandi quantità di dati in modo rapido ed economico su vasta scala.
    Archiviazione condivisa di grandi quantità di dati necessari per l'addestramento dei modelli
    Amazon S3 Offre la disponibilità globale di un'archiviazione di lunga durata dei dati in un formato di accesso get/put immediato.
  • Costruisci
  • Una volta che i dati di addestramento sono disponibili, devi scegliere un algoritmo di machine learning con uno stile di apprendimento che soddisfi le tue esigenze. Questi algoritmi possono essere classificati in linea generale come apprendimento supervisionato, apprendimento non supervisionato o apprendimento per rinforzo. Come supporto nello sviluppo del tuo modello, sono disponibili vari framework di machine learning come TensorFlow, Pytorch e MXNet, con librerie e strumenti che facilitano lo sviluppo.

    Sfida Soluzione AWS Come
    Accesso ai notebook Jupyter Notebook Jupyter ospitati Notebook Jupyter ospitati in esecuzione su un'istanza EC2 di tua scelta.
    Condizione e collaborazione in notebook Jupyter Notebook Amazon SageMaker Notebook Jupyter completamente gestiti che puoi iniziare a utilizzare in pochi secondi e condividere con un solo clic. Le dipendenze di codice vengono raccolte automaticamente, in modo da poter collaborare con altri facilmente. I colleghi ottengono lo stesso, identico notebook, salvato nello stesso posto.
    Creazione dell'algoritmo Algoritmi pre-integrati di Amazon SageMaker Algoritmi di machine learning scalabili e ad alte prestazioni, ottimizzati per la velocità e la precisione, in grado di eseguire l'addestramento su set di dati su scala petabyte.
    Ottimizzazione dei framework di deep learning Amazon SageMaker Questi framework principali vengono automaticamente configurati e ottimizzati per fornire prestazioni elevate. Non è necessario impostare manualmente i framework e puoi utilizzarli all'interno dei container integrati.
    Operazioni preliminari per l'utilizzo di più framework di ML AMI di AWS Deep Learning Consente agli utenti di avviare rapidamente le istanze Amazon EC2 preinstallate con i framework e le interfacce di deep learning più conosciuti, come TensorFlow, PyTorch e Apache MXNet.
    Operazioni preliminari con container che utilizzano più framework di ML   Container di deep learning di AWS Immagini Docker pre-installate con framework di deep learning che semplificano l'implementazione rapida di ambienti di machine learning personalizzati.
  • Addestra
  • Una volta costruito il modello, sono necessarie risorse di calcolo, rete e archiviazione per addestrarlo. Un addestramento più rapido del modello può consentire a data scientist e tecnici di machine learning di eseguire iterazioni più rapide, addestrare più modelli e aumentare la precisione. Dopo aver addestrato il modello, lo si valuta per determinare se la precisione delle inferenze è accettabile.

    Istanze

    Sfida
    Soluzione AWS            Come
    Addestramento su larga scala sensibile ai fattori tempo e costo Istanze Trn1 di EC2 alimentate da AWS Trainium

    Le istanze Trn1 di Amazon EC2, alimentate da chip AWS Trainium, sono costruite appositamente per deep learning ad alte prestazioni e offrono il miglior rapporto prezzo/prestazioni per l'addestramento di modelli di deep learning nel cloud.

    Addestramento sensibile al fattore costo Istanze DL1 di EC2 alimentate da Habana Gaudi

    Le istanze DL1 di Amazon EC2, alimentate da acceleratori Gaudi di Habana Labs, una società Intel, sono progettate per addestrare i modelli di deep learning. Utilizzano fino a 8 acceleratori Gaudi e offrono un rapporto prezzo/prestazioni migliorato del 40% rispetto alle attuali istanze EC2 basate su GPU per l'addestramento di modelli di deep learning.

    Addestramento su larga scala sensibile al fattore tempo Istanze P4 di Amazon EC2 Le istanze P4d offrono le massime prestazioni di addestramento del machine learning nel cloud con 8 GPU NVIDIA A100 Tensor Core, reti di istanze a 400 Gb/s e supporto per Elastic Fabric Adapter (EFA) con NVIDIA GPUDirect RDMA (accesso diretto remoto alla memoria). Le istanze P4d sono implementate in cluster iperscalabili chiamati UltraCluster EC2 che offrono quotidianamente prestazioni da supercomputer a sviluppatori di ML, ricercatori e data scientist.
    Addestramento su larga scala sensibile al fattore tempo Istanze P3 di Amazon EC2 Le istanze P3 offrono fino a un petaflop di prestazioni con precisione mista per ciascuna istanza, con un massimo di 8 GPU NVIDIA® V100 Tensor Core e fino a 100 Gb/s di velocità di trasmissione effettiva di rete.
    Addestramento su scala ridotta sensibile al fattore costo Istanze G5 di Amazon EC2

    Le istanze G5 offrono prestazioni fino a 3,3 volte superiori per l'addestramento del machine learning rispetto alle istanze G4dn.

    Addestramento su scala ridotta sensibile al fattore costo Istanze G4 di Amazon EC2 Le istanze G4 offrono fino a 65 TFLOP di prestazioni FP16 e sono una soluzione convincente per attività di addestramento su scala ridotta.

    Servizi di orchestrazione

    Sfida Soluzione AWS Come
    Addestramento multi-nodo Elastic Fabric Adapter EFA consente ai clienti di eseguire applicazioni che richiedono livelli elevati di comunicazione tra nodi su vasta scala, utilizzando un'interfaccia hardware di bypass del sistema operativo (OS) personalizzata.
    Orchestrazione di container complessi altamente scalabile Amazon Elastic Container Service (ECS) ECS è un servizio di orchestrazione dei container completamente gestito.
    Orchestrazione Kubernetes altamente scalabile Amazon Elastic Kubernetes Service (EKS) Puoi usare Kubeflow con EKS per modellare i flussi di lavoro di machine learning ed eseguire in modo efficace processi di addestramento distribuiti.
    Addestramento su larga scala Batch AWS Batch esegue il provisioning dinamico della quantità e dei tipi di risorse di calcolo ottimali in base al volume e ai requisiti specifici di risorse per i processi in batch inviati.
    Ottimizzazione delle prestazioni per addestramento su larga scala AWS ParallelCluster AWS ParallelCluster configura automaticamente le risorse di calcolo e i file system condivisi necessari per i progetti di addestramento del ML su larga scala.

    Archiviazione

    Sfida Soluzione AWS Come
    Archiviazione scalabile Amazon S3 S3 può raggiungere facilmente migliaia di transazioni al secondo come livello di archiviazione.
    Velocità di trasmissione effettiva e latenza di accesso allo spazio di archiviazione Amazon FSx per Lustre FSx per Lustre integrato con S3 offre archiviazione di file condivisa con velocità di trasmissione effettiva elevata e latenze basse e costanti.
    Elaborazione in batch in posizioni centrali Amazon Elastic File System (EFS) EFS consente di accedere facilmente a set di dati di machine learning di grandi dimensioni o a codice condiviso, direttamente da un ambiente notebook, senza la necessità di fornire spazio di archiviazione o di preoccuparsi della gestione del file system di rete.
    Prestazioni di I/O elevate per lo spazio di archiviazione operativo temporaneo Amazon Elastic Block Store (EBS) EBS consente una latenza di millisecondi a una cifra per esigenze di archiviazione ad alte prestazioni.

    Servizi completamente gestiti

    Sfida Soluzione AWS Come
    Gestione e monitoraggio degli esperimenti Esperimenti Amazon SageMaker Valuta e organizza esperimenti di addestramento in modo semplice e scalabile, organizza migliaia di esperimenti di formazione, registra gli artefatti degli esperimenti e visualizza rapidamente i modelli.
    Modelli di debug Debugger Amazon SageMaker Un'interfaccia visiva per analizzare i dati di debug e controllare gli indicatori visivi di potenziali anomalie nel processo di addestramento.
    Ottimizzazione dei modelli Regolazione automatica modelli di Amazon SageMaker Ottimizza automaticamente i modelli, regolando migliaia di combinazioni di parametri di algoritmi diversi per ottenere dal modello le previsioni più accurate possibili.
  • Implementa
  • Una volta completati l'addestramento e l'ottimizzazione del modello al livello di accuratezza e precisione desiderato, il modello viene messo in produzione per fare previsioni. L'inferenza è ciò che rappresenta la maggior parte dei costi del machine learning. Secondo i clienti, l'inferenza di machine learning può rappresentare fino al 90% dei costi operativi complessivi per l'esecuzione di carichi di lavoro di machine learning.

    Istanze

    Sfida Soluzione AWS Come
    Costi elevati e prestazioni ridotte Istanze Inf1 di Amazon EC2 Le istanze Inf1 presentano fino a 16 chip AWS Inferentia, chip di inferenza di machine learning ad alte prestazioni progettati e realizzati da AWS.

    Inferenza per modelli utilizzando librerie NVIDIA CUDA, CuDNN o TensorRT

    Istanze G5 di Amazon EC2

    Le istanze G5 sono dotate di un massimo di 8 GPU NVIDIA A10G Tensor Core e offrono prestazioni fino a tre volte superiori per l'inferenza di machine learning rispetto alle istanze G4dn.

    Inferenza per i modelli che utilizzano le librerie NVIDIA CUDA, CuDNN o TensorRT Istanze G4 di Amazon EC2 Le istanze G4 sono dotate di GPU NVIDIA T4 che offrono una velocità di trasmissione effettiva a bassa latenza fino a 40 volte migliore rispetto alle CPU.
    Inferenza per modelli che sfruttano le istruzioni per reti neurali vettoriali Intel AVX-512 (AVX512 VNNI) Istanze C5 di Amazon EC2 Le istanze C5 includono il supporto AVX-512 VNNI, che consente di velocizzare le tipiche operazioni di machine learning come la convoluzione e di migliorare automaticamente le prestazioni di inferenza su un'ampia gamma di carichi di lavoro di deep learning.
    Accelerazione dell'inferenza di dimensioni corrette per un rapporto prezzo/prestazioni ottimale Amazon Elastic Inference Elastic Inference consente di collegare alle istanze Amazon EC2 un'accelerazione basata su GPU a basso costo.
    Inferenza a bassa latenza, elaborazione locale dei dati o requisiti di archiviazione
    AWS Outposts AWS Outposts è un servizio completamente gestito che estende l'infrastruttura, i servizi, le API e gli strumenti AWS praticamente a qualsiasi data center, spazio di co-locazione o struttura on-premise.

    Dimensionamento dell'inferenza

    Sfida Soluzione AWS Come
    Dimensionamento complesso dell'infrastruttura AWS Cloudformation CloudFormation consente di usare linguaggi di programmazione o un semplice file di testo per modellare ed effettuare il provisioning, in modo automatizzato e sicuro, di tutte le risorse necessarie alle applicazioni in tutte le regioni e tutti gli account.
    Scalabilità imprevedibile dell'infrastruttura Dimensionamento automatico AWS Dimensionamento automatico AWS monitora le applicazioni regolandone automaticamente la capacità in modo da mantenere prestazioni stabili e prevedibili riducendo i costi al minimo.
    Utilizzo imprevedibile delle istanze EC2 Amazon EC2 Fleet Con una singola chiamata API puoi effettuare il provisioning della capacità tra i tipi di istanze EC2 e i modelli di acquisto per raggiungere dimensione, prestazioni e costi desiderati.
    Garantire l'accuratezza del modello Amazon SageMaker Model Monitor Monitora costantemente la qualità dei modelli di machine learning in produzione e riceve un avviso in caso di variazioni nella qualità del modello senza creare strumenti aggiuntivi.
    Gestione dei costi di inferenza Endpoint multi-modello di Amazon SageMaker Distribuisce più modelli con un solo clic su un singolo endpoint e li rende disponibili utilizzando un unico container di servizio per garantire un modo scalabile ed efficace in termini di costi per implementare un gran numero di modelli.
Toyota

"Le istanze P3 ci hanno aiutato a ridurre il tempo necessario per addestrare i modelli di machine learning da giorni a ore e non vediamo l'ora di utilizzare le istanze P4d, poiché la memoria GPU aggiuntiva e i formati float più efficienti ci consentiranno di addestrare più modelli complessi a una velocità ancora maggiore".

Intuit

Intuit punta tutto su AWS, che utilizza per soddisfare meglio i propri clienti. Intuit si avvale di Amazon SageMaker per addestrare i propri modelli di machine learning in modo rapido e graduale, riducendo del 90% il tempo necessario per implementare i modelli. Ulteriori informazioni.

GE Healthcare

"Con i precedenti cluster GPU, ci sarebbero voluti giorni per addestrare modelli di IA complessi, come i GAN progressivi, per le simulazioni e visualizzare i risultati. L'utilizzo delle nuove istanze P4d ha ridotto i tempi di elaborazione da giorni a ore. Abbiamo riscontrato una velocità da due a tre volte superiore sui modelli di addestramento".

Capital One

Capital One trasforma i dati in conoscenza attraverso il machine learning, consentendo all'azienda di innovare rapidamente a beneficio dei propri clienti. Capital One ricorre ai servizi AWS, tra cui Amazon S3, per promuovere l'innovazione attraverso il machine learning. Ulteriori informazioni.

Zillow

Zillow esegue i propri algoritmi di ML utilizzando Spark su Amazon EMR per creare rapidamente cluster scalabili e utilizzare funzionalità di elaborazione distribuita per gestire grandi set di dati in tempo quasi reale, creare funzioni e addestrare e valutare milioni di modelli di ML. Ulteriori informazioni.

I numeri

Prestazioni

Migliorate di 2,5 volte

le prestazioni di deep learning per P4d rispetto alle istanze P3 di precedente generazione, offrendo così le prestazioni più elevate nel cloud.

Prestazioni

62 minuti

è il tempo record per addestrare BERT con TensorFlow utilizzando 256 istanze P3dn.24xlarge con 2.048 GPU.

Costi ridotti

Ridotto del 40%

il costo per inferenza per le istanze Inf1 rispetto alle istanze G4, offrendo così il costo più basso per inferenza nel cloud.

Disponibilità

In tutto il mondo 22

regioni geografiche con un massimo di 69 zone di disponibilità sono accessibili per molti servizi infrastrutturali di AWS machine learning.

Vantaggi

  • Prestazioni elevate
  • L'efficienza di sviluppo di data scientist e ingegneri di ML è limitata spesso dalla frequenza con cui possono addestrare i loro modelli di deep learning per integrare nuove funzionalità, migliorare l'accuratezza delle previsioni o adattarsi alla deriva dei dati. AWS fornisce un'infrastruttura di calcolo, reti e archiviazione ad alte prestazioni, ampiamente disponibile con pagamento in base al consumo, che consente ai team di sviluppo di addestrare i propri modelli in base alle esigenze e di non lasciare che l'infrastruttura ostacoli l'innovazione.

    Calcolo: riduzione del tempo di addestramento a pochi minuti e potenziamento dell'inferenza

    AWS fornisce le prime istanze del settore costruite appositamente per l'addestramento e l'inferenza del ML.

    Istanze Trn1 di Amazon EC2, alimentate da chip AWS Trainium, sono costruite appositamente per l'addestramento del deep learning ad alte prestazioni e costi ridotti. Queste istanze offrono prestazioni leader del settore, con un risparmio sui costi di addestramento fino al 50% rispetto a istanze analoghe basate su GPU. Le istanze Trn1 sono alimentate da un massimo di 16 AWS Trainium. Ogni chip include due acceleratori NeuronCore di seconda generazione creati appositamente per algoritmi di deep learning. Le istanze Trn1 sono le prime istanze EC2 con una larghezza di banda della rete Elastic Fabric Adapter (EFA) fino a 800 Gb/s. Sono implementate in UltraCluster EC2 che consentono di aggiungere fino a 30.000 acceleratori Trainium, interconnessi con una rete non bloccante su scala petabit per fornire fino a 6,3 exaflop di capacità di calcolo.

    Trn1 di Amazon EC2

    Per l'implementazione di modelli addestrati in produzione, le istanze Inf1 di Amazon EC2 offrono prestazioni elevate e l'inferenza di deep learning più economica nel cloud. Queste istanze sono dotate di chip AWS Inferentia, chip di inferenza di machine learning ad alte prestazioni progettati e realizzati da AWS. Con un numero da 1 a 16 chip AWS Inferentia per istanza, le istanze Inf1 possono dimensionare le prestazioni fino a 2000 TOPS (operazioni tera al secondo).

    Inf1 di Amazon EC2

    Reti: Infrastruttura dimensionabile per un addestramento distribuito efficiente o un'inferenza con scalabilità orizzontale

    L'addestramento di un modello di grandi dimensioni richiede tempo e quanto più grande e complesso è il modello, più lungo sarà l'addestramento. AWS offre diverse soluzioni di rete per consentire ai clienti di dimensionare le loro implementazioni multi-nodo e ridurre i tempi di addestramento. Elastic Fabric Adapter (EFA) è un'interfaccia di rete per istanze Amazon EC2 che consente ai clienti di eseguire applicazioni che richiedono livelli elevati di comunicazione tra nodi su scala in AWS. La personalizzazione della sua interfaccia hardware di bypass del sistema operativo (OS) migliora le prestazioni delle comunicazioni tra istanze, fondamentali per un dimensionamento efficace. Con EFA, le applicazioni di addestramento del machine learning che utilizzano NCCL (NVIDIA Collective Communications Library) possono dimensionare fino a migliaia di GPU. Con una larghezza di banda della rete fino a 400 Gb/s per istanza e con NVIDIA GPUDirect RDMA (accesso diretto remoto alla memoria) per la comunicazione a bassa latenza da GPU a GPU fra le istanze, si ottengono le prestazioni di costosi cluster GPU on-premise con l'elasticità e la flessibilità on-demand del cloud AWS.

    Page-Illo_EC2 Overviews and Features_Enhanced Networking and EFA.png

    Archiviazione: opzioni ideali per la creazione di data lake o la gestione di dati etichettati

    Le organizzazioni di tutte le dimensioni e di tutti i settori utilizzano i data lake per trasformare i dati da un costo da gestire a una risorsa aziendale, che può essere utilizzata per ricavare informazioni preziose sul business o per fornire ai clienti esperienze avanzate con l'aiuto del machine learning. Amazon Simple Storage Service (S3) è il servizio di archiviazione di oggetti più grande e più performante per dati strutturati e non strutturati ed è il servizio di archiviazione più adatto per costruire un data lake. Con Amazon S3 è possibile costruire e dimensionare un data lake di qualsiasi dimensione in modo conveniente in un ambiente sicuro, in cui i dati sono protetti al 99,999999999% (11 9) di durabilità. Per l'addestramento distribuito, se è necessario un accesso più rapido ai dati etichettati, Amazon FSx per Lustre offre prestazioni ottimizzate per latenze inferiori al millisecondo e una velocità di trasmissione effettiva che arriva a centinaia di gigabyte al secondo. FSx per Lustre si integra con Amazon S3 e facilita l'elaborazione dei set di dati con il file system Lustre. Quando è collegato a un bucket S3, un file system FSx per Lustre presenta gli oggetti S3 come file in modo trasparente e consente di scrivere i dati modificati in S3.

    Amazon Simple Storage Service (S3)
  • Prezzi contenuti
  • Le organizzazioni stanno rapidamente adottando il deep learning per costruire applicazioni mai viste prima. I modelli diventano rapidamente sempre più complessi e aumentano di conseguenza i costi per la costruzione, l'addestramento e l'implementazione di applicazioni di machine learning. Mentre le aziende passano dall'esplorazione e dalla sperimentazione del machine learning all'implementazione delle loro applicazioni su scala, AWS offre la combinazione ideale di prestazioni e servizi infrastrutturali a basso costo per l'intero ciclo di vita di sviluppo delle applicazioni.

    Il costo più basso nel settore per l'inferenza di ML

    L'inferenza di machine learning può rappresentare fino al 90% dei costi operativi complessivi per l'esecuzione di applicazioni di machine learning in produzione. Le istanze Inf1 di Amazon EC2 offrono prestazioni elevate e l'inferenza di machine learning più economica nel cloud. Le istanze Inf1 sono costruite da zero per supportare le applicazioni di inferenza di machine learning. Presentano fino a 16 chip AWS Inferentia, chip di inferenza di machine learning ad alte prestazioni progettati e realizzati da AWS. Ogni chip di AWS Inferentia supporta fino a 128 TOPS (miliardi di operazioni al secondo) di prestazioni a bassa potenza per garantire un'efficienza ad alte prestazioni.

    Inf1 di Amazon EC2

    Per le applicazioni che necessitano di GPU per eseguire i loro modelli in produzione, le istanze Amazon EC2 G4 sono le istanze GPU più convenienti del settore. Dotate di GPU NVIDIA T4, queste istanze sono disponibili in diverse dimensioni di istanza con accesso a una o più GPU con diverse quantità di vCPU e memoria: questo ti offre la flessibilità di scegliere la dimensione di istanza adatta alle tue applicazioni.

    G4 di Amazon EC2

    Non tutti i modelli di machine learning sono uguali e modelli diversi traggono vantaggio da livelli diversi di accelerazione hardware. Le istanze C5 di Amazon EC2 basate su Intel offrono il prezzo più basso per vCPU nella famiglia Amazon EC2 e sono ideali per l'esecuzione di carichi di lavoro avanzati con calcoli complessi. Queste istanze supportano Intel Deep Learning Boost e possono offrire un equilibrio ideale tra prestazioni e costi per l'esecuzione di modelli ML in produzione.

    C5 di Amazon EC2

    Amazon Elastic Inference consente di collegare accelerazione a basso costo basata su GPU alle istanze Amazon EC2 e alle istanze Amazon SageMaker o alle attività Amazon ECS, consentendoti di ridurre i costi di esecuzione dell'inferenza di deep learning fino al 75%.

    Amazon Elastic Inference

    Ampia scelta di istanze GPU per ottimizzare i tempi e i costi di addestramento, disponibili su scala

    A seconda del tipo di applicazione di machine learning, i clienti preferiscono ottimizzare i cicli di sviluppo per ridurre il tempo necessario per addestrare i modelli di ML o il costo totale di addestramento. Nella maggior parte dei casi, i costi totali comprendono non solo il costo dell'addestramento, ma anche il costo opportunità del tempo di inattività che gli ingegneri e i data scientist del ML avrebbero potuto dedicare all'ottimizzazione del loro modello.

    Le istanze G4 di Amazon EC2 offrono la piattaforma GPU più conveniente del settore. Queste istanze sono ottimali per l'addestramento di modelli meno complessi e sono ideali per aziende o istituzioni per cui la rapidità dei tempi di addestramento non è fondamentale. Le istanze G4 consentono di accedere a un massimo di otto GPU NVIDIA T4, ciascuna delle quali offre fino a 65 TFLOP di prestazioni FP16.

    G4 di Amazon EC2

    Le istanze P4 di Amazon EC2 offrono le migliori prestazioni di istanze singole e addestramento distribuito, consentendo ai team di ingegneri di ridurre in modo significativo i tempi di iterazione dei modelli, accelerare il time to market e ottimizzare le spese di progettazione complessive. Queste istanze offrono un costo inferiore fino al 60% rispetto alle istanze P3 di precedente generazione e possono essere implementate tramite tutte le opzioni di prezzo EC2 con uno sconto fino al 90% utilizzando Spot. Poiché le prestazioni di GPU e acceleratori di ML hardware migliorano di almeno 2 volte ogni 18 mesi, l'utilizzo dell'infrastruttura AWS con un modello di pagamento in base al consumo consente di sfruttare le prestazioni più convenienti senza bloccare investimenti preziosi per cluster on-premise che hanno un periodo di validità limitato.

    P4 di Amazon EC2

    Le istanze P3 e P3dn di Amazon EC2 forniscono elevate prestazioni di calcolo nel cloud con un massimo di 8 GPU Tensor Core NVIDIA® V100 e fino a 100 Gb/s di velocità di trasmissione effettiva di rete per applicazioni di machine learning e HPC. Queste istanze offrono fino a un petaflop di prestazioni a precisione mista per istanza per accelerare in modo significativo le applicazioni di machine learning e HPC (High Performance Computing) su AWS. Le istanze P3 e P3dn sono disponibili in 4 dimensioni con un massimo di 8 GPU e 96 vCPU e sono disponibili a livello globale in 18 regioni AWS.

    Istanze P3 e P3dn di Amazon EC2
  • Altamente flessibile
  • Supporto per tutti i principali framework di machine learning

    Framework come TensorFlow e PyTorch rimuovono gran parte delle minuzie legate alla realizzazione dei modelli di ML, consentendo agli sviluppatori di concentrarsi sulla logica generale e sul flusso di dati del loro modello. Oltre il 70% delle aziende che realizzano applicazioni di machine learning ha dichiarato che i propri team utilizzano un mix di diversi framework di ML. L'infrastruttura ML di AWS supporta tutti i framework di deep learning più diffusi, consentendo ai team di scegliere il framework giusto in base alle proprie preferenze e all'efficienza di sviluppo.

    TensorFlow
    PyTorch
    mxnet
    Keras
    Gluon
    Horovod

    Ottimizzazioni che si integrano nei framework

    In AWS siamo particolarmente orientati non solo a consentire ai clienti di eseguire i loro carichi di lavoro di ML su AWS, ma anche a dare loro la massima libertà di scegliere il framework di ML o i servizi di infrastruttura più adatti alle loro esigenze. L'ottimizzazione del software per addestrare e implementare in modo efficace i modelli sui servizi di infrastruttura AWS è integrata con i framework di ML più diffusi (TensorFlow, PyTorch e MXNet), il che consente ai clienti di continuare a utilizzare il framework che preferiscono, senza essere vincolati a un framework o a un'architettura hardware specifica. Il funzionamento a livello di framework consente ai clienti di scegliere sempre la soluzione migliore per le loro esigenze, senza essere vincolati a un'architettura hardware o a un provider cloud specifico.

    AWS Neuron è l'SDK per i chip AWS Inferentia e AWS Trainium. Con AWS Neuron, è possibile eseguire un addestramento del ML ad alte prestazioni e costi contenuti utilizzando istanze Trn1 di Amazon EC2 basate su AWS Trainium. È possibile inoltre eseguire l'inferenza ad alte prestazioni e bassa latenza utilizzando istanze Inf1 di Amazon EC2 basate su AWS Inferentia. AWS Neuron è integrato in modo nativo con framework diffusi come TensorFlow, PyTorch e MXNet. Per accelerare l'addestramento con le istanze Trn1 di EC2 e l'inferenza con le istanze Inf1 di EC2, è possibile utilizzare modelli pre-addestrati e modificare solo poche righe di codice all'interno del framework.

    AWS Neuron

    Per supportare un efficace addestramento multi-nodo/distribuito, AWS ha integrato Elastic Fabric Adapter (EFA) con NVIDIA Collective Communications Library (NCCL), una libreria per la comunicazione tra più GPU all'interno di un singolo nodo o più nodi. Analogamente ad AWS Neuron, i clienti possono continuare a utilizzare il framework di ML da loro scelto per costruire i loro modelli e sfruttare l'ottimizzazione nascosta per l'infrastruttura AWS.

    Nvidia

Opzioni di prezzo

I carichi di lavoro per l'addestramento e l'inferenza del machine learning possono presentare caratteristiche di stato stazionario (ad esempio, l'etichettatura in batch di foto su base oraria per una popolazione numerosa), di picco (ad esempio, l'avvio di nuovi processi di addestramento o di ricerca di raccomandazioni durante i periodi promozionali) o entrambi. AWS offre opzioni di prezzo e soluzioni che ti consentono di ottimizzare le prestazioni e i costi dell'infrastruttura.

Opzioni di prezzo

 

 

A : utilizza le istanze Spot per carichi di lavoro flessibili e con tolleranza agli errori, come i processi di addestramento di ML non sensibili al fattore tempo

B : utilizza le istanze on-demand per carichi di lavoro nuovi o di picco stateful, come i processi di addestramento di ML a breve termine

C : utilizza Savings Plans per carichi di lavoro con stato noto/costante, come i carichi di lavoro di inferenza stabile

Caso d'uso Soluzione AWS Come
Processi di addestramento a breve termine Prezzi on demand Le istanze on demand consentono di pagare per la capacità di elaborazione consumata all'ora o al secondo, in base alle istanze eseguite.
Processi di addestramento con orari di inizio e fine flessibili Prezzi Spot Le istanze Spot di Amazon EC2 consentono di richiedere una capacità di calcolo Amazon EC2 di riserva con uno sconto fino al 90% rispetto al prezzo on-demand.
Carichi di lavoro di machine learning costanti su diversi tipi di istanze per un lungo periodo di tempo Savings Plans Savings Plans offre un notevole risparmio rispetto ai prezzi on-demand, in cambio dell'impegno a utilizzare una quantità specifica di potenza di elaborazione per un periodo di uno o tre anni.