AWS Inferentia

Chip de inferência de machine learning de alta performance, projetado especificamente pela AWS

A demanda por aceleração da aprendizagem profunda está crescendo rapidamente em vários aplicativos. Aplicativos como recomendações personalizadas de pesquisa, definição de preço dinâmica ou suporte automatizado ao cliente estão crescendo em sofisticação e ficando mais caros para serem executados na produção. À medida que mais aplicativos incorporam recursos de machine learning, uma porcentagem maior de cargas de trabalho precisa de aceleração, incluindo aquelas que precisam de performance em tempo real de baixa latência. Esses aplicativos se beneficiam da infraestrutura otimizada para executar algoritmos de machine learning.

A visão da AWS é tornar a aprendizagem profunda difundida para desenvolvedores comuns e democratizar o acesso ao hardware de ponta disponibilizado em um modelo de uso de baixo custo, pago conforme o uso. O AWS Inferentia é um grande passo e compromisso que nos ajudará a cumprir essa visão. O AWS Inferentia foi projetado para fornecer alta performance de inferência na nuvem, reduzir o custo total da inferência e facilitar a integração do machine learning como parte dos recursos e funcionalidades padrão do aplicativo. O AWS Inferentia vem com o kit de desenvolvimento de software (SDK) da AWS Neuron, que consiste em um compilador, tempo de execução e ferramentas de criação de perfil. Permite que modelos complexos de redes neurais, criados e treinados em estruturas populares como Tensorflow, PyTorch e MXNet, sejam executados usando instâncias do Amazon EC2 Inf1 baseadas na AWS Inferentia.

AWS Inferentia

Benefícios

Alta performance

Cada chip da AWS Inferentia oferece suporte a até 128 TOPS (trilhões de operações por segundo) de performance em baixa potência para habilitar vários chips por instância do EC2. O AWS Inferentia oferece suporte aos tipos de dados FP16, BF16 e INT8. Além disso, o Inferentia pode pegar um modelo treinado de 32 bits e executá-lo na velocidade de um modelo de 16 bits usando o BFloat16.

Baixa latência

O AWS Inferentia apresenta uma grande quantidade de memória no chip, que pode ser usada para armazenar em cache modelos grandes, eliminando a necessidade de armazená-los fora do chip. Isso tem um impacto significativo na redução da latência de inferência já que os núcleos de processamento do Inferentia (Neuron Cores) têm acesso de alta velocidade aos modelos e não são limitados pela largura de banda de memória fora do chip.

Facilidade de uso

Modelos de machine learning treinados podem ser facilmente implantados nas instâncias do Amazon EC2 Inf1 baseadas na AWS Inferentia com alterações mínimas de código. Para começar rapidamente, você pode usar o Amazon SageMaker, um serviço totalmente gerenciado para criar, treinar e implantar modelos de machine learning. Os desenvolvedores que preferem gerenciar seus próprios fluxos de trabalho para criar e implantar seus modelos podem usar diretamente o AWS Neuron SDK, que é integrado nativamente a estruturas populares, como TensorFlow, PyTorch e MXNet. O AWS Neuron também está pré-instalado nas AMIs do AWS Deep Learning e também pode ser instalado no seu ambiente personalizado sem uma estrutura.

Instâncias Inf1 do Amazon EC2 desenvolvido pelo AWS Inferentia

As instâncias Inf1 do Amazon EC2 oferecem alta performance e a menor inferência de machine learning na nuvem. Usando instâncias Inf1, os clientes podem executar aplicativos de inferência de machine learning em larga escala (como reconhecimento de imagem, reconhecimento de fala, processamento de linguagem natural, personalização e detecção de fraude) pelo menor custo na nuvem.

Saiba mais »

Product-Page_Standard-Icons_02_Sign-Up_SqInk
Cadastre-se para obter uma conta gratuita

Obtenha acesso instantâneo ao nível gratuito da AWS. 

Cadastre-se 
Product-Page_Standard-Icons_03_Start-Building_SqInk
Comece a criar no console

Comece a usar o machine learning no Console AWS.

Faça login