AWS Inferentia

Chip de inferência de machine learning de alta performance, projetado especificamente pela AWS

A visão da AWS é tornar a aprendizagem profunda difundida para desenvolvedores comuns e democratizar o acesso ao hardware de ponta disponibilizado em um modelo de uso de baixo custo, pago conforme o uso. O AWS Inferentia é o primeiro silício personalizado da Amazon projetado para acelerar cargas de trabalho de aprendizado profundo e é parte de uma estratégia de longo prazo para cumprir essa visão. O AWS Inferentia foi projetado para fornecer alta performance de inferência na nuvem, reduzir o custo total da inferência e facilitar a integração de machine learning para desenvolvedores em suas aplicações de negócios. O kit de desenvolvimento de software (SDK) AWS Neuron, que consiste em um compilador, tempo de execução e ferramentas de criação de perfil que ajudam a otimizar o desempenho de cargas de trabalho para o AWS Inferentia, permite que modelos de rede neural complexos, criados e treinados em estruturas populares, como Tensorflow, PyTorch e MXNet, sejam executados usando instâncias do Amazon EC2 Inf1 baseadas no AWS Inferentia.

AWS Inferentia

Benefícios

Alto desempenho

Cada chip do AWS Inferentia oferece suporte a até 128 TOPS (trilhões de operações por segundo) de performance com até 16 chips de Inferentia por instância Inf1 de EC2. O Inferentia é otimizado para maximizar a taxa de transferência para tamanhos de lote pequenos, o que é especialmente benéfico para aplicações que têm requisitos estritos de latência, como geração de voz e pesquisa.

Baixa latência

O AWS Inferentia apresenta uma grande quantidade de memória no chip, que pode ser usada para armazenar em cache modelos grandes, em vez de armazená-los fora do chip. Isso tem um impacto significativo na redução da latência de inferência já que os núcleos de processamento do Inferentia, chamados Neuron Cores, têm acesso de alta velocidade aos modelos que são armazenados na memória do chip e não são limitados pela largura de banda de memória fora do chip.

Flexibilidade

Os desenvolvedores podem adaptar modelos usando estruturas populares, como TensorFlow, PyTorch e MXNet, e implantá-los facilmente em instâncias Inf1 baseadas no AWS Inferentia usando o SDK do AWS Neuron. O AWS Inferentia oferece suporte aos tipos de dados FP16, BF16 e INT8. Além disso, o Inferentia pode pegar um modelo adaptado de 32 bits e executá-lo na velocidade de um modelo de 16 bits usando o BFloat16.

Instâncias Inf1 do Amazon EC2 desenvolvidas pelo AWS Inferentia

As instâncias Inf1 de EC2 com base em chips do AWS Inferentia oferecem taxa de transferência até 30% mais alta e custo por inferência até 45% menor do que as instâncias G4 do Amazon EC2, que já eram a instância de menor custo para inferência de machine learning disponível na nuvem. As instâncias Inf1 apresentam até 16 chips do AWS Inferentia, com os mais recentes processadores Intel® Xeon® Scalable da segunda geração personalizados e redes de até 100 Gbps para habilitar inferência com alta taxa de transferência. A maneira mais rápida e fácil de começar a usar instâncias Inf1 é pelo Amazon SageMaker, um serviço totalmente gerenciado que permite que os desenvolvedores criem, treinem e implantem modelos de machine learning com rapidez. Os desenvolvedores que usam aplicações em contêineres também podem usar o Amazon Elastic Kubernetes Service (EKS) para implantar instâncias Inf1.

Saiba mais »

SDK do AWS Neuron

O AWS Neuron é um kit de desenvolvimento de software (SDK) para executar inferência de machine learning usando chips do AWS Inferentia. Ele consiste em ferramentas de compilador, tempo de execução e criação de perfil que permitem que os desenvolvedores executem inferência de alta performance e baixa latência usando instâncias Inf1 do AWS Inferentia. O AWS Neuron permite flexibilidade para que os desenvolvedores adaptem seus modelos de machine learning em qualquer estrutura popular, como TensorFlow, PyTorch e MXNet, e execute-os de maneira ideal nas instâncias do Amazon EC2 Inf1. O AWS Neuron SDK vem pré-instalado em AMIs do AWS Deep Learning e também estará disponível pré-instalado no AWS Deep Learning Containers em breve.

Saiba mais » ou Comece a usar »

Vídeos

AWS re:Invent 2019: Watch Andy Jassy talk about silicon investment and Inf1
AWS re:Invent 2019: ML Inference with new Amazon EC2 Inf1 Instances, featuring Amazon Alexa
Lower the Cost of Running ML Applications with New Amazon EC2 Inf1 Instances - AWS Online Tech Talks
Product-Page_Standard-Icons_02_Sign-Up_SqInk
Cadastre-se para obter uma conta gratuita

Obtenha acesso instantâneo ao nível gratuito da AWS. 

Cadastre-se 
Product-Page_Standard-Icons_03_Start-Building_SqInk
Comece a criar no console

Comece a usar o machine learning no Console AWS.

Faça login