Finch Computing reduz custos de inferência em 80% usando o AWS Inferentia para tradução de idiomas

Redução de 80%

em custos de computação

3 Idiomas adicionais

compatíveis graças à economia de custos

Mais rapidez para entrada no mercado

de novos produtos

Otimização

de throughput e tempo de resposta para clientes

Clientes adicionais

captados ao usar o serviço

Visão geral

A Finch Computing desenvolve tecnologia de processamento de linguagem natural (PLN) para oferecer aos clientes a capacidade de descobrir insights a partir de grandes volumes de dados de texto e buscava atender aos pedidos dos clientes de suporte para mais idiomas. A Finch desenvolveu seus próprios modelos de tradução neural usando algoritmos de aprendizado profundo com grandes requisitos de computação dependentes de GPUs. A empresa estava procurando uma solução escalável que oferecesse suporte para feeds de dados globais e permitisse a interação de novos modelos de linguagem rapidamente, sem assumir custos inviáveis.

Desde o início, a Finch vinha usando soluções da Amazon Web Services (AWS). A empresa começou a analisar o AWS Inferentia, um acelerador de inferência para machine learning de alto desempenho, especialmente produzido pela AWS para acelerar workloads de aprendizado profundo. Ao criar uma infraestrutura computacional centrada no uso do AWS Inferentia, a Finch reduziu custos em mais de 80% em comparação com o uso de GPUs, mantendo o throughput e os tempos de resposta para os clientes. Com uma poderosa infraestrutura computacional instalada, a Finch acelerou a entrada no mercado, expandiu a PLN para oferecer suporte a três idiomas adicionais e atraiu novos clientes.

Oportunidade | Demanda por escalabilidade e otimização de custos para modelos de ML

Com instalações em Reston, na Virgínia e em Dayton, em Ohio, a Finch (combinação das palavras “find” e “search”) atende empresas de mídia e agregadores de dados, organizações governamentais e de inteligência dos EUA, bem como empresas de serviços financeiros. Seus produtos se baseiam em PLN, um subconjunto da inteligência artificial que treina modelos para entender as nuances da linguagem humana, incluindo a decifração de tons e intenções. O produto chamado Finch for Text realiza cálculos densos e paralelos de machine learning (ML) que dependem de computação acelerada e de alto desempenho para o fornecimento de informações quase em tempo real aos clientes sobre ativos informacionais. Por exemplo, o recurso de desambiguação de entidades oferece aos clientes a capacidade de interpretar o significado mais adequado de uma palavra que tenha vários significados ou grafias.

A Finch expandiu seus recursos a fim de oferecer suporte ao idioma holandês, e isso foi o estopim da necessidade de crescer ainda mais e incluir os idiomas francês, alemão, espanhol entre outros. Essa decisão foi benéfica não apenas porque os clientes da Finch tinham muito conteúdo nesses idiomas, mas também porque os modelos compatíveis com os idiomas adicionais poderiam atrair novos clientes. A Finch precisava encontrar uma maneira de processar uma quantidade significativa de dados adicionais sem afetar o throughput ou os tempos de resposta, que são fatores cruciais para os clientes, ou aumentar os custos de implantação.

Na AWS re:Invent 2021, a conferência anual organizada pela AWS para a comunidade global de computação em nuvem, os representantes da Finch conheceram as instâncias baseadas no AWS Inferentia do Amazon Elastic Compute Cloud (Amazon EC2), que oferece capacidade computacional segura e redimensionável para praticamente qualquer workload. A Finch foi apresentada à Slalom, uma empresa parceira da AWS de consultoria focada em estratégia, tecnologia e transformação de negócios. Após a conferência AWS re:Invent, os membros da equipe da Slalom e da Finch trabalharam durante 2 meses na criação de uma solução econômica. “Além de receber orientação da equipe da AWS, nos conectamos com a Slalom, o que nos ajudou a otimizar nossas workloads e acelerar o projeto”, diz Scott Lightner, fundador e diretor de tecnologia da Finch.

Considerando o custo das GPUs, não poderíamos oferecer idiomas adicionais aos nossos clientes e, ao mesmo tempo, manter nosso produto lucrativo. As instâncias Inf1 do Amazon EC2 mudaram essa equação.”

Scott Lightner
Diretor de tecnologia e fundador da Finch Computing

Solução | Elaboração de solução usando o AWS Inferentia

Juntas, Finch e Slalom criaram uma solução que otimizou o uso das instâncias Inf1 do Amazon EC2 baseadas no AWS Inferentia, que oferecem inferências de ML de alto desempenho a um baixo custo na nuvem. "Considerando o custo das GPUs, não poderíamos oferecer idiomas adicionais aos nossos clientes e, ao mesmo tempo, manter nosso produto lucrativo", diz Lightner. "As instâncias Inf1 do Amazon EC2 mudaram essa equação."

Os modelos de tradução de aprendizado profundo de propriedade da empresa eram executados na PyTorch na AWS, uma estrutura de aprendizado profundo de código aberto que simplifica o desenvolvimento de modelos de ML e a implantação deles na produção. A Finch usou o Docker para conteinerizar e implantar os modelos PyTorch. Além disso, a empresa migrou esses modelos de computação pesada de instâncias baseadas em GPU para as instâncias Inf1 do Amazon EC2 com tecnologia AWS Inferentia. As instâncias Inf1 do Amazon EC2 foram desenvolvidas para acelerar um conjunto diversificado de modelos, desde visão computacional até PLN. A equipe conseguiu criar uma solução que inclui diversos tamanhos de modelos mantendo o mesmo throughput do uso das GPUs, mas a um custo significativamente menor. “Usando o AWS Inferentia, podemos obter o throughput e o desempenho necessários a um preço acessível para nossos clientes”, afirma Lightner.

A estratégia envolveu a implantação de contêineres do Docker no Amazon Elastic Container Service (Amazon ECS), um serviço de orquestração de contêineres totalmente gerenciado que simplifica a implantação, o gerenciamento e a escalabilidade de aplicações em contêineres para as organizações. A solução integrou AMIs de deep learning da AWS (DLAMI), que são ambientes pré-configurados para criar aplicações de aprendizado profundo rapidamente. A Finch conectou as AMIs do AWS Inferentia ao seu pipeline de DevOps e atualizou os modelos de infraestrutura como código para usar o AWS Inferentia e executar contêineres personalizados usando o Amazon ECS. “Depois de executar nosso pipeline de DevOps nas instâncias Inf1 do Amazon EC2 e no Amazon ECS, foi possível implantar rapidamente mais modelos de aprendizado profundo”, diz Franz Weckesser, diretor de arquitetura da Finch. A Finch desenvolveu um modelo com suporte ao idioma ucraniano em apenas 2 dias. Em alguns meses, a Finch implantou três modelos adicionais de ML com suporte à PLN em alemão, francês e espanhol, e melhorou o desempenho do modelo holandês já existente.

Usando instâncias Inf1 do Amazon EC2, a empresa melhorou a velocidade de desenvolvimento desses novos produtos e, ao mesmo tempo, reduziu os custos de inferência em mais de 80%. A adição dos novos modelos atraiu clientes interessados em obter insights dos idiomas adicionais e recebeu comentários positivos dos clientes existentes. “Sempre há desafios ao fazer mudanças generalizadas na infraestrutura”, diz Lightner. “Mas conseguimos superá-los rapidamente através da perseverança de nossa equipe e com a ajuda da Slalom e da AWS. O resultado final valeu a pena.”

Resultado | Migração de aplicações adicionais para o AWS Inferentia

A Finch pretende continuar migrando mais modelos para o AWS Inferentia. Esses modelos incluem a Atribuição de sentimentos, que identifica um conteúdo como positivo, negativo ou neutro, e um novo recurso chamado extração de relacionamento, uma aplicação de computação intensiva que descobre relações entre entidades mencionadas no texto. A empresa continua adicionando novos idiomas, com planos para árabe, chinês e russo. “Nossa experiência em trabalhar no AWS Inferentia tem sido ótima”, diz Lightner. “É excelente ter um provedor de nuvem que trabalha conosco e nos ajuda a dimensionar à medida que nossa empresa cresce.”

Sobre a Finch Computing

A Finch Computing é uma empresa de processamento de linguagem natural que usa machine learning para ajudar os clientes a obter insights praticamente em tempo real a partir de textos. Os clientes incluem empresas de mídia e agregadores de dados, o governo e a inteligência dos EUA, bem como serviços financeiros.

Serviços da AWS usados

Amazon Inferentia

O AWS Inferentia é o primeiro chip personalizado da Amazon desenvolvido para acelerar cargas de trabalho de aprendizado profundo e é parte de uma estratégia de longo prazo para cumprir essa visão.

Saiba mais »

Amazon Elastic Container Service (Amazon ECS)

O Amazon ECS é um serviço de orquestração de contêineres totalmente gerenciado que facilita a implantação, o gerenciamento e a escala de aplicações em contêineres.

Saiba mais »

Amazon Elastic Compute Cloud (Amazon EC2)

O Amazon EC2 oferece a plataforma de computação mais ampla e aprofundada, com mais de 500 instâncias e opções de processadores, armazenamentos, redes, sistemas operacionais e modelos de compras mais recentes para ajudar você a atender melhor às necessidades de sua workload.

Saiba mais »

AMI de deep learning da AWS (DLAMI)

As AMIs do AWS Deep Learning disponibilizam a profissionais e pesquisadores de machine learning a infraestrutura e as ferramentas necessárias para acelerar o aprendizado profundo na nuvem em qualquer escala.

Saiba mais »

2022

Redução de 80%

3 Idiomas adicionais

Mais rapidez para entrada no mercado

Otimização

Clientes adicionais

Visão geral

Sobre a Finch Computing

Serviços da AWS usados

Amazon Inferentia

Amazon Elastic Container Service (Amazon ECS)

Amazon Elastic Compute Cloud (Amazon EC2)

AMI de deep learning da AWS (DLAMI)

Comece a usar

2022

Finch Computing reduz custos de inferência em 80% usando o AWS Inferentia para tradução de idiomas

Redução de 80%

3 Idiomas adicionais

Mais rapidez para entrada no mercado

Otimização

Clientes adicionais

Visão geral

Sobre a Finch Computing

Serviços da AWS usados

Amazon Inferentia

Amazon Elastic Container Service (Amazon ECS)

Amazon Elastic Compute Cloud (Amazon EC2)

AMI de deep learning da AWS (DLAMI)

Comece a usar

Encerramento do suporte para o Internet Explorer