Como as startups reduzem os custos de IA/ML e inovam com o AWS Inferentia

Como estava esse conteúdo?

Como uma startup de machine learning (ML), você provavelmente está ciente dos desafios que surgem com o treinamento e a implantação de modelos de ML em suas aplicações (“produtização de ML”). A produtização de ML é desafiadora porque as startups trabalham simultaneamente para alcançar alta performance de aplicações, criar uma experiência agradável para o usuário e gerenciar custos de forma eficiente, tudo isso enquanto criam uma startup competitiva e sustentável.

Ao escolher a infraestrutura para suas workloads de ML, as startups devem considerar a melhor forma de abordar o treinamento e a inferência. O treinamento é o processo pelo qual um modelo é criado e ajustado para uma tarefa específica, aprendendo com os dados existentes. A inferência é o processo de usar esse modelo para fazer previsões com base em novos dados de entrada. Nos últimos cinco anos, a AWS tem investido em nossos próprios aceleradores criados especificamente para melhorar a performance e o custo de computação das workloads de ML. Os aceleradores AWS Trainium e AWS Inferentia permitem o menor custo para modelos de treinamento e execução de inferência na nuvem.

As instâncias Inf1 do Amazon EC2 baseadas no AWS Inferentia são ideais para startups que desejam executar aplicações de inferência de ML, tais como:

  • Pesquisar
  • Mecanismos de recomendação
  • Visão computacional
  • Reconhecimento de voz
  • Processamento de linguagem natural (PLN)
  • Personalização
  • Detecção de fraudes

Para treinar e implantar modelos mais complexos, como modelos de IA generativa (grandes modelos de linguagem e modelos de difusão), talvez sua startup queira conferir as novas instâncias Trn1 do Amazon EC2, baseadas no AWS Trainium, e as instâncias Inf2 do Amazon EC2, baseadas no AWS Inferentia2.

Nesta postagem, abordaremos casos de uso de duas startups, a Actuate e a Finch Computing, e o sucesso que elas obtiveram com instâncias Inf1 baseadas no inferência.

Actuate | Detecção de ameaças usando análise de vídeo por IA em tempo real | 91% de economia nos custos de inferência

Caso de uso: a Actuate fornece uma plataforma de software como serviço (SaaS) destinada a converter qualquer câmera em uma câmera inteligente de detecção de ameaças em tempo real para detectar de forma instantânea e precisa armas, intrusos, multidões e vadiagem. A plataforma de software da Actuate se integra aos sistemas de câmeras de vídeo existentes para criar sistemas de segurança avançados. Com o software de detecção de ameaças de inteligência artificial (IA) da Actuate, os clientes recebem alertas em tempo real em segundos e podem agir rapidamente para proteger suas instalações.

Oportunidade: o acionamento necessário para garantir a alta precisão da detecção. Isso significava retreinar constantemente seus modelos usando mais dados, o que consumia um tempo valioso do desenvolvedor. Além disso, como precisavam de tempos de resposta rápidos, eles dependiam da infraestrutura baseada em GPU, que tinha um custo proibitivo em grande escala. Como uma startup com recursos limitados, minimizar os custos de inferência e o tempo do desenvolvedor pode ajudar a Actuate a usar esses recursos para criar melhores capacidades e fornecer mais valor aos usuários finais.

Solução e impacto: primeiro, a Actuate implementou o Amazon SageMaker para treinar e implantar seus modelos. Isso reduziu o tempo de implantação, medido desde os dados rotulados até o modelo implantado, de quatro semanas para quatro minutos. Na fase seguinte, ela migrou os modelos de ML em todo o conjunto de seus produtos, de instâncias baseadas em GPU para instâncias Inf1 baseadas no AWS Inferentia. Essa migração exigiu um envolvimento mínimo do desenvolvedor, pois eles não precisavam reescrever o código da aplicação e precisavam apenas de algumas linhas de alterações no código. A Actuate obteve uma economia de custos extraordinária de até 70% com o AWS Inferentia. Em uma otimização adicional, eles reduziram os custos de inferência em 91%. Isso permitiu que eles usassem seus recursos para se concentrar em melhorias na experiência do usuário e na pesquisa fundamental de IA.

Recursos: para saber mais sobre o caso de uso da Actuate, você pode assistir à apresentação dela no re:Invent. Para começar a usar um modelo de visão computacional em instâncias Inf1, visite a página de documentação do Neuron e explore este caderno quanto ao modelo Yolov5 no GitHub.

Finch Computing | Insights em tempo real usando PLN em ativos informacionais | 80% de economia em custos de inferência

Caso de uso: a Finch (uma combinação das palavras “find” e “search”) Computing atende empresas de mídia e agregadores de dados, organizações governamentais e de inteligência dos EUA e empresas de serviços financeiros. Seus produtos usam algoritmos de processamento de linguagem natural (PLN) para fornecer informações práticas sobre grandes volumes de dados de texto em uma variedade de ativos informativos. Um exemplo disso é a atribuição de sentimentos, que envolve identificar um conteúdo como positivo, negativo ou neutro e retornar uma pontuação numérica indicativa do nível e do tipo do sentimento.

Oportunidade: depois de adicionar suporte ao seu produto para o idioma holandês, a Finch Computing queria expandir ainda mais para oferecer suporte ao francês, alemão, espanhol e outros idiomas. Isso ajudaria os clientes existentes com conteúdo nesses idiomas e também atrairia novos clientes em toda a Europa. A Finch Computing desenvolveu e implantou seus próprios modelos de tradução de aprendizado profundo em GPUs, que tinham um custo proibitivo para oferecer suporte a idiomas adicionais. A empresa estava procurando uma solução alternativa que permitisse criar e executar novos modelos de linguagem de forma rápida e econômica.

Solução e impacto: em apenas alguns meses, a Finch Computing migrou seus modelos de tradução de computação pesada de instâncias baseadas em GPU para instâncias Inf1 do Amazon EC2 com tecnologia do AWS Inferentia. As instâncias Inf1 permitiram o mesmo throughput das GPUs, mas ajudaram a Finch a economizar mais de 80% em seus custos. A Finch Computing ofereceu suporte aos três idiomas adicionais e atraiu novos clientes. Hoje, todos os seus modelos de tradução são executados em Inf1, e ela planeja explorar as instâncias Inf2 para novos casos de uso de IA generativa, como resumo de texto e geração de títulos.

Recursos: para saber mais sobre o caso de uso da Finch Computing, você pode ler este estudo de caso. Para começar a usar um modelo de tradução, visite a página de documentação do Neuron e veja este caderno sobre o modelo MarianMT no GitHub.

AWS Inferentia para inferência de ML econômica e de alta performance

Neste blog, analisamos duas startups que implantaram modelos de ML de forma econômica em produção no AWS Inferentia, ao mesmo tempo em que alcançaram alto throughput e baixa latência.

Você está pronto para começar a usar as instâncias Inf1? Você pode usar o SDK do AWS Neuron, que se integra de forma nativa a estruturas populares de ML, como PyTorch e TensorFlow. Para saber como, acesse a página de documentação do Neuron e explore esse repositório de modelos de amostra no GitHub.

Confira como mais startups de AIML estão criando e escalando na AWS 🚀:

Shruti Koparkar

Shruti Koparkar

Shruti Koparkar é Gerente Sênior de Marketing de Produtos na AWS. Ela ajuda os clientes a explorar, avaliar e adotar a infraestrutura de computação acelerada do Amazon EC2 para suas necessidades de machine learning.

Como estava esse conteúdo?