AWS Inferentia
La visione di AWS è quella di diffondere sempre di più il deep learning nel lavoro degli sviluppatori e di democratizzare l'accesso a un'infrastruttura innovativa resa disponibile in modelli di utilizzo low cost e con pagamento a consumo. AWS Inferentia è il primo chip di silicio personalizzato progettato per accelerare i carichi di lavoro di deep learning e fa parte della strategia a lungo termine per realizzare questa visione. AWS Inferentia è progettato allo scopo di fornire un'inferenza ad alte prestazioni nel cloud, diminuire il costo totale dell'inferenza e facilitare l'integrazione del machine learning da parte degli sviluppatori nelle rispettive applicazioni aziendali.
Il kit di sviluppo software (SDK) AWS Neuron è composto da strumenti compiler, runtime e di profilazione che aiutano a ottimizzare le prestazioni dei flussi di lavoro per AWS Inferentia. Gli sviluppatori possono distribuire modelli complessi di reti neurali, costruiti e allenati su framework popolari come Tensorflow, PyTorch, e MXNet, possono inoltre distribuirli sulle istanze Amazon EC2 Inf1 basate su AWS Inferentia. Puoi continuare a usare gli stessi framework ML che usi attualmente e migrare i modelli su Inf1 con modifiche di codice minime e senza bisogno di dipendere dalle specifiche soluzioni di un fornitore.
Vantaggi
Prestazioni elevate
Ogni chip di AWS Inferentia supporta fino a 128 TOPS (trilioni di operazioni al secondo) di prestazioni con fino a 16 chip Inferentia per istanza Inf1 EC2. Inferentia è ottimizzato per massimizzare il throughput per dimensioni di batch ridotte, un aspetto particolarmente vantaggioso per le applicazioni che presentano requisiti di latenza rigidi come la generazione e la ricerca vocale.
Bassa latenza
I chip AWS Inferentia dispongono di una grande quantità di memoria su chip che può essere utilizzata per memorizzare nella cache modelli di grandi dimensioni, anziché archiviarli off-chip. Questo ha un impatto significativo sulla riduzione della latenza di inferenza, perché i core di elaborazione di Inferentia, denominati Neuron Cores, hanno un accesso ad alta velocità ai modelli che sono archiviati nella memoria su chip e non sono limitati dalla larghezza di banda della memoria off-chip.
Facilità d'uso
Gli sviluppatori possono addestrare modelli usando framework noti come TensorFlow, PyTorch e MXNet e distribuirli senza difficoltà a istanze Inf1 basate su AWS Inferentia utilizzando l'SDK AWS Neuron. AWS Inferentia supporta tipi di dati FP16, BF16 e INT8. Inoltre, Inferentia può supportare modelli di training da 32 bit ed eseguirli automaticamente alla velocità di un modello da 16 bit utilizzando BFloat16.
Istanze Inf1 di Amazon EC2 powered by AWS Inferentia
Le istanze Inf1 di Amazon EC2 basate sui chip AWS consegnano un throughput fino a 2,3 volte superiore e costi fino al 70% più bassi per inferenza rispetto all'attuale generazione comparabile basata su GPU delle istanze di Amazon EC2. Le istanze Inf1 presentano fino a 16 chip AWS Inferentia, i più recenti processori scalabili Intel® Xeon® di seconda generazione personalizzati e una rete fino a 100 Gb/s per consentire un'inferenza a throughput elevato. Il modo più facile e rapido per iniziare con le istanze Inf1 è tramite Amazon SageMaker, un servizio completamente gestito che consente agli sviluppatori di creare, addestrare e distribuire rapidamente modelli di machine learning. Gli sviluppatori che si avvalgono di applicazioni containerizzate possono anche utilizzare Amazon Elastic Kubernetes Service (EKS) per distribuire le istanze Inf1.
SDK AWS Neuron
AWS Neuron è un Software Development Kit (SDK) per eseguire inferenze di machine learning utilizzando chip AWS Inferentia. Il kit comprende un compilatore e strumenti di runtime e profilazione che consentono agli sviluppatori di eseguire inferenze ad alte prestazioni e bassa latenza utilizzando le istanze Inf1 di Amazon EC2 basate su AWS Inferentia. Utilizzando AWS Neuron gli sviluppatori possono facilmente addestrare i modelli di machine learning in qualsiasi framework noto, tra cui TensorFlow, PyTorch e MXNet, ed eseguirli in maniera ottimale su istanze Inf1 di EC2. Puoi continuare a usare gli stessi framework ML che usi attualmente e migrare il software sulle istanze Inf1 con modifiche di codice minime e senza bisogno di dipendere dalle specifiche soluzioni di un fornitore. SDK AWS Neuron è pre-installato nelle AMI di AWS Deep Learning e in AWS Deep Learning Containers, il che rende più semplice iniziare a usare le istanze Inf1.
Blog e articoli
Patrick Moorhead, 13 maggio 2020
James Hamilton, 28 novembre 2018
Video

Ottieni l'accesso immediato al piano gratuito di AWS.