O blog da AWS
A Amenity Analytics usa uma arquitetura Serverless-First e PLN para decompor dados financeiros baseados em texto
Ao mesmo tempo, diz o cofundador e CEO Nathaniel Storch, pode levar horas, senão dias, para compilar informações igualmente úteis que estão enterradas em dados textuais. Storch, ex-analista financeiro, diz que “sentiu esse problema na pele ao analisar empresas de capital aberto.” Ele levou incontáveis horas para obter as informações necessárias de dados escritos, como arquivamentos regulatórios, artigos de notícias, relatórios de pesquisa e transcrições de teleconferências de resultados. E isso para uma única empresa. “Tentar obter essas informações em escala era impossível. Por isso, criamos a Amenity Analytics para ajudar nossos clientes a resolver esse problema crítico e tratar informações em texto da mesma forma que tratam dados estruturados.”
A startup, que tem escritórios em Israel e Nova York, é no fundo uma empresa de processamento de linguagem natural (PLN). Seus algoritmos vasculham enormes quantidades de dados, processando cerca de um milhão de informações de texto por dia. O software reúne insights que são compartilhados com seus clientes, entre eles nomes como Nasdaq e Moody’s. “Algumas das informações mais importantes de que nossos clientes precisam para informar suas decisões de negócios existem em formatos de texto e são amplamente inexploradas como fonte de insights devido às dificuldades de analisar o texto de forma significativa”, diz o vice-presidente de engenharia Roy Penn.
Para seus clientes – que incluem algumas das maiores seguradoras, bancos, firmas de investimento e muito mais – o software da empresa gera tendências e pontuações de primeira linha em torno das ideias que descobre e, em seguida, identifica artigos e frases específicos referenciados.
Para as seguradoras, por exemplo, Penn diz: “Analisamos e refinamos milhões de notícias e outros documentos por dia e colocamos isso em um conjunto claro de métricas de risco alertando os analistas de risco sobre possíveis problemas, com total transparência no conteúdo de origem.”
Os clientes da Amenity esperam que a empresa revele pontos de dados acionáveis, diz Penn, “mesmo que estejam escondidos atrás de camadas de redação de palavras. Por isso, empregamos técnicas de correspondência de padrões linguísticos de última geração”. De acordo com Penn, a chave para o sucesso da Amenity no campo de PLN tem sido criar sua própria estrutura. A maioria das empresas que usam a PLN — um ramo do machine learning focado na compreensão de dados linguísticos conforme eles são fornecidos pelas pessoas, em comparação com as saídas bem definidas dos computadores — executa algoritmos comumente conhecidos. No entanto, ao conceber e criar “quaisquer algoritmos que quisermos”, diz Penn, “somos capazes de operá-los de maneiras que geram uma vantagem sobre outras empresas”.
Previsivelmente, esse complexo sistema de classificações de PLN representa workloads com uso intensivo de CPU, as quais são tratadas por uma arquitetura serverless-first da AWS. “Toda a nossa pilha é baseada em ferramentas da AWS. Escrevemos grandes partes dela em C e conseguimos compactá-la em várias funções do Lambda”, diz Penn. “Isso dá aos nossos cientistas de dados a capacidade de realizar muitos experimentos de forma rápida e barata. No geral, a mudança para a PLN com tecnologia sem servidor reduziu nossos custos de análise em 90% e o tempo de análise em 95%”, diz ele. Além disso, “a manutenção e a complexidade do código são reduzidas quando usamos padrões com tecnologia sem servidor, e isso se traduz em ciclos de desenvolvimento mais rápidos”.
Penn é um fã específico do processo de extração, transformação, carregamento (ETL) por meio do AWS Glue. Ele afirma que o processo se encaixa perfeitamente nas necessidades da Amenity de “um sistema que seja rápido, econômico e escalável o suficiente para poder lidar com dias de notícias muito lentos e solicitações absurdas, por exemplo, um cliente que precisa de 10 milhões de peças de informações analisadas em um dia”. Ele também cita economia de tempo e custos: “Com o processo de ‘nova ideia’ do ETL, reduzimos cerca de 50% dos custos e, com a PLN, conseguimos diminuir os custos em cerca de 10x e reduzir o tempo de análise em cerca de 20x a 100x. São números impressionantes, porque, ao fazer isso, você se capacita a concluir um ciclo criativo mais rápido, pensar mais rápido e implementar e testar mais rápido.”
Além das informações publicamente disponíveis que a Amenity verifica e fornece para bancos, investidores e empresas financeiras, ela também pode fornecer informações internas às empresas examinando seus documentos protegidos e confidenciais. “Elas poderiam ser protegidas por conta de informações pessoais identificáveis, ou talvez tenham um pouco do seu ingrediente secreto”, diz Penn. “Os fundos de hedge podem ter informações comerciais secretas e querer analisar seus próprios documentos, mas querem que ninguém saiba sobre eles. As seguradoras têm muitos e-mails trocados com seus clientes, e eles podem querer saber as tendências e tópicos que estão emergindo em seus e-mails.” O que constitui informações valiosas difere de uma empresa para outra, explica Penn, mas ao configurar e ajustar os dados usando os algoritmos que a equipe da Amenity criou, “podemos encontrar o que é importante para todos em seu próprio universo”.
No futuro, diz Penn, a Amenity planeja expandir sua oferta para outros setores, como saúde, jurídico e ensino. A empresa também quer expandir seu alcance para Londres. Enquanto isso, a Amenity continuará coletando e analisando informações baseadas em texto e entregando-as aos seus clientes. “Quanto mais complexo, melhor”, diz Penn.
Este artigo foi traduzido do Blog da AWS em Inglês.