AWS Inferentia

Chip di inferenza di machine learning ad alte prestazioni, progettato appositamente da AWS

La visione di AWS è quella di diffondere sempre di più il deep learning nel lavoro degli sviluppatori e di democratizzare l'accesso a un'infrastruttura innovativa resa disponibile in modelli di utilizzo low cost e con pagamento a consumo. AWS Inferentia è il primo chip di silicio personalizzato progettato per accelerare i carichi di lavoro di deep learning e fa parte della strategia a lungo termine per realizzare questa visione. AWS Inferentia è progettato allo scopo di fornire un'inferenza ad alte prestazioni nel cloud, diminuire il costo totale dell'inferenza e facilitare l'integrazione del machine learning da parte degli sviluppatori nelle rispettive applicazioni aziendali. Il Software Development Kit (SDK) AWS Neuron, costituito da un compilatore e strumenti di runtime e profilazione che contribuiscono a ottimizzare le prestazioni dei carichi di lavoro per AWS Inferentia, abilita modelli di rete neurale complessi, creati e addestrati in framework noti come Tensorflow, PyTorch e MXNet, affinché siano eseguiti utilizzando le istanze Inf1 di Amazon EC2 basate su AWS Inferentia.

AWS Inferentia

Vantaggi

Prestazioni elevate

Ogni chip di AWS Inferentia supporta fino a 128 TOPS (trilioni di operazioni al secondo) di prestazioni con fino a 16 chip Inferentia per istanza Inf1 EC2. Inferentia è ottimizzato per massimizzare il throughput per dimensioni di batch ridotte, un aspetto particolarmente vantaggioso per le applicazioni che presentano requisiti di latenza rigidi come la generazione e la ricerca vocale.

Bassa latenza

I chip AWS Inferentia dispongono di una grande quantità di memoria su chip che può essere utilizzata per memorizzare nella cache modelli di grandi dimensioni, anziché archiviarli off-chip. Questo ha un impatto significativo sulla riduzione della latenza di inferenza, perché i core di elaborazione di Inferentia, denominati Neuron Cores, hanno un accesso ad alta velocità ai modelli che sono archiviati nella memoria su chip e non sono limitati dalla larghezza di banda della memoria off-chip.

Flessibilità

Gli sviluppatori possono addestrare modelli usando framework noti come TensorFlow, PyTorch e MXNet e distribuirli senza difficoltà a istanze Inf1 basate su AWS Inferentia utilizzando l'SDK AWS Neuron. AWS Inferentia supporta tipi di dati FP16, BF16 e INT8. Inoltre, Inferentia può supportare modelli di training da 32 bit ed eseguirli automaticamente alla velocità di un modello da 16 bit utilizzando BFloat16.

Istanze Inf1 di Amazon EC2 powered by AWS Inferentia

Le istanze Inf1 di Amazon EC2 basate sui chip AWS Inferentia offrono un throughput fino al 30% superiore e un costo per inferenza fino al 45% inferiore rispetto alle istanze G4 di Amazon EC2, che erano già le istanze più economiche per l'inferenza di machine learning disponibili nel cloud. Le istanze Inf1 presentano fino a 16 chip AWS Inferentia, i più recenti processori scalabili Intel® Xeon® di seconda generazione personalizzati e una rete fino a 100 Gb/s per consentire un'inferenza a throughput elevato. Il modo più facile e rapido per iniziare con le istanze Inf1 è tramite Amazon SageMaker, un servizio completamente gestito che consente agli sviluppatori di creare, addestrare e distribuire rapidamente modelli di machine learning. Gli sviluppatori che si avvalgono di applicazioni containerizzate possono anche utilizzare Amazon Elastic Kubernetes Service (EKS) per distribuire le istanze Inf1.

Ulteriori informazioni »

SDK AWS Neuron

AWS Neuron è un Software Development Kit (SDK) per eseguire inferenze di machine learning utilizzando chip AWS Inferentia. Il kit comprende un compilatore e strumenti di runtime e profilazione che consentono agli sviluppatori di eseguire inferenze ad alte prestazioni e bassa latenza utilizzando le istanze Inf1 basate su AWS Inferentia. AWS Neuron garantisce agli sviluppatori flessibilità per addestrare i modelli di machine learning in qualsiasi framework noto, tra cui TensorFlow, PyTorch e MXNet, ed eseguirli in maniera ottimale su istanze Inf1 di Amazon EC2. L'SDK AWS Neuron è pre-installato nelle AMI di AWS Deep Learning e sarà inoltre disponibile giù installato in AWS Deep Learning Containers.

Ulteriori informazioni » o Nozioni di base »

Video

AWS re:Invent 2019: Watch Andy Jassy talk about silicon investment and Inf1
AWS re:Invent 2019: ML Inference with new Amazon EC2 Inf1 Instances, featuring Amazon Alexa
Lower the Cost of Running ML Applications with New Amazon EC2 Inf1 Instances - AWS Online Tech Talks
Product-Page_Standard-Icons_02_Sign-Up_SqInk
Registrati per creare un account gratuito

Ottieni l'accesso istantaneo al piano gratuito di AWS. 

Registrati 
Product-Page_Standard-Icons_03_Start-Building_SqInk
Inizia subito nella console

Inizia subito a usare il machine learning nella console AWS

Accedi