AWS Inferentia

Chip de inferência de machine learning de alta performance, projetado especificamente pela AWS

A visão da AWS destina-se a difundir o aprendizado profundo para desenvolvedores comuns e democratizar o acesso a infraestruturas de ponta disponibilizadas em um modelo de uso de baixo custo e pagamento conforme o uso. O AWS Inferentia é o primeiro silício personalizado da Amazon projetado para acelerar cargas de trabalho de aprendizado profundo e é parte de uma estratégia de longo prazo para cumprir essa visão. O AWS Inferentia foi projetado para fornecer alta performance de inferência na nuvem, reduzir o custo total da inferência e facilitar a integração de machine learning para desenvolvedores em suas aplicações de negócios.

O kit de desenvolvimento de software (SDK) do AWS Neuron consiste em um compilador, tempo de execução e ferramentas para criação de perfil que ajudam a otimizar a performance de workloads para o AWS Inferentia. Os desenvolvedores podem implantar modelos complexos de rede neural que foram criados e treinados em frameworks conhecidos, como Tensorflow, PyTorch e MXNet, e implantá-los em instâncias Inf1 do Amazon EC2 baseadas em AWS Inferentia. Você pode continuar a usar os mesmos frameworks de ML que usa atualmente e migrar seus modelos para instâncias Inf1 com alterações mínimas no código e sem depender de soluções específicas de um fornecedor.

Amazon Alexa adota AWS Inferentia para cortar custos de inferência de ML

Benefícios

Alto desempenho

Cada chip do AWS Inferentia oferece suporte a até 128 TOPS (trilhões de operações por segundo) de performance com até 16 chips de Inferentia por instância Inf1 de EC2. O Inferentia é otimizado para maximizar a taxa de transferência para tamanhos de lote pequenos, o que é especialmente benéfico para aplicações que têm requisitos estritos de latência, como geração de voz e pesquisa.

Baixa latência

O AWS Inferentia apresenta uma grande quantidade de memória no chip, que pode ser usada para armazenar em cache modelos grandes, em vez de armazená-los fora do chip. Isso tem um impacto significativo na redução da latência de inferência já que os núcleos de processamento do Inferentia, chamados Neuron Cores, têm acesso de alta velocidade aos modelos que são armazenados na memória do chip e não são limitados pela largura de banda de memória fora do chip.

Facilidade de uso

Os desenvolvedores podem adaptar modelos usando estruturas populares, como TensorFlow, PyTorch e MXNet, e implantá-los facilmente em instâncias Inf1 baseadas no AWS Inferentia usando o SDK do AWS Neuron. O AWS Inferentia oferece suporte aos tipos de dados FP16, BF16 e INT8. Além disso, o Inferentia pode pegar um modelo adaptado de 32 bits e executá-lo na velocidade de um modelo de 16 bits usando o BFloat16.

Instâncias Inf1 do Amazon EC2 viabilizadas pelo AWS Inferentia

As instâncias Inf1 do Amazon EC2 baseadas em chips AWS Inferentia entregam uma taxa de transferência até 2,3 vezes maior e um custo por inferência até 70% menor em comparação com a atual geração de instâncias do Amazon EC2 baseadas em GPU. As instâncias Inf1 apresentam até 16 chips do AWS Inferentia, com os mais recentes processadores Intel® Xeon® Scalable da segunda geração personalizados e redes de até 100 Gbps para habilitar inferência com alta taxa de transferência. A maneira mais rápida e fácil de começar a usar instâncias Inf1 é pelo Amazon SageMaker, um serviço totalmente gerenciado que permite que os desenvolvedores criem, treinem e implantem modelos de machine learning com rapidez. Os desenvolvedores que usam aplicações em contêineres também podem usar o Amazon Elastic Kubernetes Service (EKS) para implantar instâncias Inf1.

Saiba mais »

SDK do AWS Neuron

O AWS Neuron é um kit de desenvolvimento de software (SDK) para executar inferência de machine learning usando chips do AWS Inferentia. Ele consiste em ferramentas de compilador, tempo de execução e criação de perfil que permitem que os desenvolvedores executem inferência de alta performance e baixa latência usando instâncias Inf1 do Amazon EC2 baseadas em AWS Inferentia. Com o Neuron, os desenvolvedores podem treinar facilmente seus modelos de machine learning em qualquer framework popular, como TensorFlow, PyTorch e MXNet, e executar esse framework de maneira ideal em instâncias Inf1 do EC2. Você pode continuar a usar os mesmos frameworks de ML que usa atualmente e migrar seu software para instâncias Inf1 com alterações mínimas no código e sem depender de soluções específicas de um fornecedor. O AWS Neuron SDK é fornecido pré-instalado nas AMIs do Amazon Deep Learning, bem como em AWS Deep Learning Containers, o que facilita sua utilização com instâncias Inf1.

Saiba mais » ou Comece a usar »

Vídeos

AWS re:Invent 2019: Assista Andy Jassy a discutir Inf1 e investimento silicon
AWS re:Invent 2019: Inferência de Machine Learning com as novas instâncias Amazon EC2 Inf1, com Amazon Alexa
Reduza os custos de correr aplicativos de Machine Learning com as novas instâncias Amazon EC2 Inf1 - AWS Online Tech Talks
Sign up for a free account
Cadastre-se para obter uma conta gratuita

Obtenha acesso instantâneo ao nível gratuito da AWS. 

Cadastre-se 
Standard Product Icons (Start Building) Squid Ink
Comece a criar no console

Comece a usar o machine learning no Console AWS.

Fazer login