AWS Inferentia

Chip de inferência de machine learning de alta performance, especialmente construído pela AWS

A visão da AWS é tornar o aprendizado profundo difundido para desenvolvedores comuns e democratizar o acesso ao hardware de ponta disponibilizado em um modelo de uso de baixo custo, pago conforme o uso. O AWS Inferentia é nosso primeiro acelerador desenvolvido especificamente para acelerar workloads de aprendizado profundo e faz parte de uma estratégia de longo prazo para cumprir essa visão. O AWS Inferentia foi projetado para fornecer alta performance de inferência na nuvem, reduzir o custo total da inferência e facilitar a integração de machine learning para desenvolvedores em suas aplicações de negócios.

O kit de desenvolvimento de software (SDK) do AWS Neuron consiste em um compilador, tempo de execução e ferramentas para criação de perfil que ajudam a otimizar a performance de workloads para o AWS Inferentia. Os desenvolvedores podem implantar modelos complexos de rede neural que foram criados e treinados em frameworks conhecidos, como Tensorflow, PyTorch e MXNet, e implantá-los em instâncias Inf1 do Amazon EC2 baseadas em AWS Inferentia. Você pode continuar a usar os mesmos frameworks de ML que usa atualmente e migrar seus modelos para instâncias Inf1 com alterações mínimas no código e sem depender de soluções específicas de um fornecedor.

Amazon Alexa adota AWS Inferentia para cortar custos de inferência de ML

Benefícios

Alta performance

Cada chip AWS Inferentia tem quatro NeuronCores de primeira geração e suporta até 128 teraoperações por segundo (TOPS) de performance com até 16 chips Inferentia por instância Inf1 do EC2. O Inferentia é otimizado para maximizar a throughput para tamanhos de lote pequenos, o que é especialmente benéfico para aplicações que têm requisitos estritos de latência, como geração de voz e pesquisa.

Baixa latência

O AWS Inferentia apresenta uma grande quantidade de memória no chip, que pode ser usada para armazenar em cache modelos grandes, em vez de armazená-los fora do chip. Isso tem um impacto significativo na redução da latência de inferência já que os núcleos de processamento do Inferentia, chamados Neuron Cores, têm acesso de alta velocidade aos modelos que são armazenados na memória do chip e não são limitados pela largura de banda de memória fora do chip.

Facilidade de uso

Os desenvolvedores podem adaptar modelos usando estruturas populares, como TensorFlow, PyTorch e MXNet, e implantá-los facilmente em instâncias Inf1 baseadas no AWS Inferentia usando o SDK do AWS Neuron. O AWS Inferentia oferece suporte aos tipos de dados FP16, BF16 e INT8. Além disso, o Inferentia pode pegar um modelo adaptado de 32 bits e executá-lo na velocidade de um modelo de 16 bits usando o BFloat16.

Instâncias Inf1 do Amazon EC2 viabilizadas pelo AWS Inferentia

As instâncias Inf1 do Amazon EC2 baseadas em chips AWS Inferentia entregam uma taxa de transferência até 2,3 vezes maior e um custo por inferência até 70% menor em comparação com a atual geração de instâncias do Amazon EC2 baseadas em GPU. As instâncias Inf1 apresentam até 16 chips do AWS Inferentia, com os mais recentes processadores Intel® Xeon® Scalable da segunda geração personalizados e redes de até 100 Gbps para habilitar inferência com alta taxa de transferência. A maneira mais rápida e fácil de começar a usar instâncias Inf1 é pelo Amazon SageMaker, um serviço totalmente gerenciado que permite que os desenvolvedores criem, treinem e implantem modelos de machine learning com rapidez. Os desenvolvedores que usam aplicações em contêineres também podem usar o Amazon Elastic Kubernetes Service (EKS) para implantar instâncias Inf1.

Saiba mais »

SDK do AWS Neuron

O AWS Neuron é um kit de desenvolvimento de software (SDK) para executar inferência de machine learning usando chips do AWS Inferentia. Ele consiste em ferramentas de compilador, tempo de execução e criação de perfil que permitem que os desenvolvedores executem inferência de alta performance e baixa latência usando instâncias Inf1 do Amazon EC2 baseadas em AWS Inferentia. Com o Neuron, os desenvolvedores podem treinar facilmente seus modelos de machine learning em qualquer framework popular, como TensorFlow, PyTorch e MXNet, e executar esse framework de maneira ideal em instâncias Inf1 do EC2. Você pode continuar a usar os mesmos frameworks de ML que usa atualmente e migrar seu software para instâncias Inf1 com alterações mínimas no código e sem depender de soluções específicas de um fornecedor. O AWS Neuron SDK é fornecido pré-instalado nas AMIs do Amazon Deep Learning, bem como em AWS Deep Learning Containers, o que facilita sua utilização com instâncias Inf1.

Saiba mais » ou Comece a usar »

Vídeos

AWS re:Invent 2019: Assista Andy Jassy a discutir Inf1 e investimento silicon
AWS re:Invent 2019: Inferência de Machine Learning com as novas instâncias Amazon EC2 Inf1, com Amazon Alexa
Reduza os custos de correr aplicativos de Machine Learning com as novas instâncias Amazon EC2 Inf1 - AWS Online Tech Talks
Cadastre-se para obter uma conta gratuita

Obtenha acesso instantâneo ao nível gratuito da AWS. 

Cadastrar-se 
Comece a criar no console

Comece a usar o machine learning no Console AWS.

Fazer login