Como a Thomson Reuters acelerou a pesquisa e o desenvolvimento de soluções de processamento de linguagem natural com o Amazon SageMaker

Por Mark Roy e Qingwei Li
Este post é co-escrito por John Duprey e Filippo Pompili da Thomson Reuters.

A Thomson Reuters (TR) é um dos provedores de respostas mais confiáveis do mundo, ajudando os profissionais a tomar decisões e administrar negócios. Equipes de especialistas da TR reúnem informações, inovação e insights para desvendar situações complexas, e sua rede mundial de jornalistas e editores mantém os clientes a par dos desenvolvimentos globais. TR tem mais de 150 anos de dados anotados por humanos sobre lei, impostos, notícias e outros segmentos. Os dados da TR são a jóia da coroa do negócio. É um dos aspectos que distingue TR de seus concorrentes.

Em 2018, uma equipe de cientistas do Centro de AI e Computação Cognitiva da TR iniciou um projeto experimental na vanguarda do entendimento da linguagem natural. O projeto é baseado nas últimas descobertas científicas que trouxeram amplas mudanças no campo da compreensão de leitura de máquina (CLM) e visa desenvolver tecnologias que você pode usar para resolver inúmeras tarefas, incluindo classificação de texto e resposta a perguntas em linguagem natural.

Neste post, discutimos como a TR usou o Amazon SageMaker para acelerar seus esforços de pesquisa e desenvolvimento, e fez isso com economia de custos e flexibilidade significativas. Explicamos como a equipe experimentou muitas variantes do BERT para produzir uma poderosa capacidade de perguntas e respostas. Por fim, descrevemos o Secure Content Workspace (SCW) da TR, que proporcionou à equipe acesso fácil e seguro aos recursos do Amazon SageMaker e aos dados proprietários de TR.

Desafio cliente

A equipe de pesquisa e desenvolvimento da TR precisava iterar de forma rápida e segura. Os membros da equipe já tinham experiência significativa no desenvolvimento de soluções de perguntas, tanto por meio de engenharia de recursos dedicados para algoritmos quanto com soluções baseadas em redes neurais. Eles desempenharam um papel fundamental no desenvolvimento da tecnologia que alimenta Westlaw Edge (legal) e Checkpoint Edge (imposto), dois produtos bem recepcionados da TR. Esses projetos exigiram 15 a 18 meses intensos de esforços em desenvolvimento e atingiram níveis de desempenho notáveis. Para CLM, a equipe de pesquisa decidiu experimentar o BERT e várias de suas variantes em dois conjuntos de dados do TR, um do domínio jurídico e outro do domínio tributário.

O corpus de formação jurídica foi composto por dezenas de milhares de perguntas revisadas por editores. Cada pergunta foi comparada com várias respostas potenciais na forma de resumos de texto curtos e pontuais. Esses resumos foram materiais editoriais altamente curados que foram extraídos de casos legais de muitas décadas, resultando em um conjunto de treinamento de candidatos de várias centenas de milhares de pares de perguntas (QA), extraídos de dezenas de milhões de resumos de texto. O corpus fiscal, composto por mais de 60.000 documentos curados editorialmente sobre a lei fiscal federal dos EUA, continha milhares de perguntas e dezenas de milhares de pares de QA.

O pré-treinamento do modelo e o ajuste fino desses conjuntos de dados seriam impossíveis sem poder computacional de última geração. A aquisição desses recursos de computação normalmente exigia um grande investimento inicial com longos prazos de execução. Para ideias de pesquisa que poderiam ou não se tornar um produto, era difícil justificar um custo tão significativo para a experimentação.

Por que a AWS e o Amazon SageMaker?

A TR escolheu o Amazon SageMaker como o serviço de aprendizado de máquina (ML) para este projeto. O Amazon SageMaker é um serviço totalmente gerenciado para criar, treinar, ajustar e implantar modelos de ML em escala. Um dos principais fatores na decisão da TR de escolher o Amazon SageMaker foi o benefício de um serviço gerenciado com faturamento pago conforme o uso. O Amazon SageMaker permite que a TR decida quantos experimentos executar e ajuda a controlar o custo do treinamento. Mais importante ainda, quando um trabalho de treinamento é concluído, a equipe não é mais cobrada pelas instâncias de GPU que estavam usando. Isso resultou em economias substanciais de custos em comparação com o gerenciamento de seus próprios recursos de treinamento, o que teria resultado em baixa utilização do servidor. A equipe de pesquisa poderia criar tantas instâncias quanto necessário e deixar a estrutura cuidar de encerrar experimentos de longa duração quando eles foram feitos. Isso permitiu a prototipagem rápida em escala.

Além disso, o Amazon SageMaker tem um recurso integrado de usar instâncias spot gerenciadas, o que reduziu o custo do treinamento em alguns casos em mais de 50%. Para alguns experimentos de processamento de linguagem natural (PLN) de grande porte usando modelos como BERT em vastos conjuntos de dados proprietários, o tempo de treinamento é medido em dias, se não semanas, e o hardware envolvido são GPUs com custo expressivo. Um único experimento pode custar alguns milhares de dólares. O treinamento spot gerenciado com o Amazon SageMaker ajudou a TR a reduzir os custos de treinamento em 40 a 50%, em média. Em comparação com o treinamento autogerenciado, o Amazon SageMaker também vem com um conjunto completo de recursos de segurança integrados. Isso salvou a equipe inúmeras horas de codificação que teriam sido necessárias em uma infraestrutura de ML autogerenciada.

Depois que eles lançaram os trabalhos de treinamento, TR poderia facilmente monitorá-los no console do Amazon SageMaker. As medição de utilização de hardware permitiram que a equipe tivesse uma visão geral rápida do status de seus trabalhos. Por exemplo, eles poderiam garantir que o treinamento estava evoluindo conforme o esperado e ver quão bem as GPUs alocadas foram utilizadas.

O Amazon SageMaker forneceu ao TR acesso fácil à infraestrutura de GPU de última geração sem precisar provisionar sua própria infraestrutura ou assumir o ônus de gerenciar um conjunto de servidores, segurança e patches. À medida que as instâncias de GPU mais rápidas e baratas se tornam disponíveis no futuro, o TR pode usá-las para reduzir custos e tempos de treinamento com uma simples alteração de configuração para usar o novo tipo. Neste projeto, a equipe conseguiu experimentar facilmente instâncias da família P2, P3 e G4 com base em suas necessidades específicas. A AWS também deu à TR um amplo conjunto de serviços de ML, opções de preços econômicas, controles de segurança granulares e suporte técnico.

Visão geral da solução

Os clientes operam em áreas complexas que avançam a sociedade — lei, impostos, conformidade, governo e mídia — e enfrentam uma complexidade crescente à medida que a regulamentação e a tecnologia interrompem todos os setores. TR ajuda-os a reinventar a forma de como funcionam. Usando o CLM, a TR espera oferecer pesquisas em linguagem natural que superam os modelos anteriores que dependiam da engenharia manual de recursos.

Os modelos CLM baseados em BERT que a equipe de pesquisa TR está desenvolvendo são executados em conjuntos de dados de texto que excedem várias dezenas de GBs de dados compactados. As estruturas de aprendizado profundo de escolha para TR são TensorFlow e PyTorch. A equipe usa instâncias de GPU para trabalhos demorados de treinamento de rede neural, com tempos de execução que variam de dezenas de minutos a vários dias.

A equipe CLM experimentou muitas variantes do BERT. Inicialmente a partir do modelo base, com 12 camadas de codificadores de transformadores empilhados e 12 cabeças de atenção para 100 milhões de parâmetros, até o grande modelo com 24 camadas, 16 cabeças e 300 milhões de parâmetros. A disponibilidade de GPUs V100 com a maior quantidade de 32 GB de RAM foi fundamental para treinar as maiores variantes do modelo. A equipe formulou o problema de resposta de perguntas como uma tarefa de classificação binária. Cada par de QA é classificado por um conjunto de especialistas no assunto (PME) atribuindo uma das quatro notas diferentes: A, C, D e F, onde A é para respostas perfeitas e F para erros completamente errados. As notas de cada par de QA são convertidas em números, médias entre os avaliadores e binarizadas.

Como cada sistema de resposta de perguntas é específico do domínio, a equipe de pesquisa usou técnicas de aprendizado de transferência e adaptação de domínio para habilitar essa capacidade em diferentes subdomínios (por exemplo, a lei não é um único domínio). TR usou o Amazon SageMaker para pré-treinamento de modelos de linguagem e ajuste fino de seus modelos BERT. Quando comparada ao hardware local disponível, a instância do Amazon SageMaker P3 diminuía o tempo de treinamento de várias horas para menos de 1 hora para tarefas de ajuste fino. O pré-treinamento do BERT no corpus específico do domínio foi reduzido de uma estimativa de várias semanas para apenas alguns dias. Sem as dramáticas economias de tempo e economia de custos fornecidas pelo Amazon SageMaker, a equipe de pesquisa de TR provavelmente não teria concluído a extensa experimentação necessária para este projeto. Com o Amazon SageMaker, eles fizeram avanços que promoveram melhorias importantes em seus aplicativos, permitindo pesquisas mais rápidas e precisas por seus usuários.

Para inferência, TR usou a função de transformação em lote do Amazon SageMaker para pontuação de modelos em grandes quantidades de amostras de teste. Quando o teste de desempenho do modelo foi satisfatório, a hospedagem gerenciada pelo Amazon SageMaker permitiu inferência em tempo real. A TR está levando os resultados de pesquisa e desenvolvimento e movendo-os para a produção, onde eles esperam usar endpoints do Amazon SageMaker para lidar com milhões de solicitações por dia em domínios profissionais altamente especializados.

Acesso seguro, fácil e contínuo às grandes quantidades de dados proprietários

Proteger a propriedade intelectual da TR é muito importante para o sucesso a longo prazo do negócio. Devido a isso, TR tem padrões claros e em constante evolução em torno de segurança e formas de trabalhar na nuvem que devem ser seguidas para proteger seus ativos.

Isso levanta algumas questões-chave para os cientistas da TR. Como eles podem criar uma instância de um notebook do Amazon SageMaker (ou iniciar um trabalho de treinamento) que seja seguro e compatível com os padrões da TR? Como um cientista pode obter acesso seguro aos dados do TR no Amazon SageMaker? A TR precisava garantir que os cientistas pudessem fazer isso de forma consistente, segura e com o mínimo esforço.

O workflow de conteúdo seguro (SCW) é uma ferramenta baseada na web desenvolvida pela equipe de pesquisa e desenvolvimento da TR e responde a essas perguntas. O diagrama a seguir mostra SCW no contexto do esforço de pesquisa do TR descrito anteriormente.

O SCW permite acesso seguro e controlado aos dados do TR. Ele também provisiona serviços, como o Amazon SageMaker, de forma compatível com os padrões da TR. Com a ajuda do SCW, os cientistas podem trabalhar na nuvem com tranquilidade sabendo que estão em conformidade com os protocolos de segurança. O SCW permite que eles se concentrem no que são bons, resolvendo problemas difíceis com inteligência artificial (IA).

Conclusão

A Thomson Reuters está totalmente comprometida com a pesquisa e desenvolvimento de recursos de IA de última geração para ajudar o trabalho de seus clientes. A pesquisa CLM foi a mais recente nestes empreendimentos. Os resultados iniciais indicam aplicações amplas em toda a linha de produtos da TR, especialmente para responder a perguntas de linguagem natural. Considerando que as soluções passadas envolveram ampla engenharia de recursos e sistemas complexos, esta nova pesquisa mostra soluções de ML mais simples são possíveis. Toda a comunidade científica é muito ativa neste espaço, e TR orgulha-se de fazer parte dela.

Esta pesquisa não teria sido possível sem o poder computacional significativo oferecido pelas GPUs e a capacidade de escalá-lo sob demanda. O pacote de recursos do Amazon SageMaker forneceu ao TR a potência e as estruturas necessárias para criar, treinar e hospedar modelos para testes. A TR criou o SCW para apoiar a pesquisa e desenvolvimento baseados na nuvem, como o MRC. O SCW configura o ambiente de trabalho dos cientistas na nuvem e garante a conformidade com todos os padrões e recomendações de segurança da TR. Ele foi feito usando ferramentas como o Amazon SageMaker com segurança de dados do TR.

Avançando, a equipe de pesquisa de TR está procurando introduzir uma gama muito maior de recursos de AI/ML com base nessas poderosas arquiteturas de aprendizado profundo, usando o Amazon SageMaker e o SCW. Exemplos de tais recursos avançados incluem geração de respostas on-the-fly, resumo de texto longo e resposta de perguntas totalmente interativa e conversacional. Esses recursos permitirão um sistema de IA assistiva abrangente que pode orientar os usuários para a melhor solução para todas as suas necessidades de informações.

Este artigo foi traduzido do Blog da AWS em Inglês.

Sobre os Autores

Mark Roy é um arquiteto de soluções especialista em aprendizado de máquina, ajudando os clientes em sua jornada para soluções de aprendizado de máquina bem arquitetadas em escala. Em seu tempo livre, Mark adora jogar, treinar e seguir o basquete.

Qingwei Li é especialista em aprendizado de máquina na Amazon Web Services. Ele recebeu seu Ph.D. em Pesquisa de Operações depois que ele quebrou a conta de bolsa de pesquisa de seu consultor e não conseguiu entregar o Prêmio Nobre que ele prometeu. Atualmente, ele ajuda os clientes do setor de serviços financeiros e seguros a criar soluções de machine learning na AWS. Em seu tempo livre, ele gosta de ler e ensinar.

John Duprey é diretor sênior de engenharia do Center for AI and Cognitive Computing (C3) da Thomson Reuters. John e a equipe de engenharia trabalham ao lado de cientistas e equipes de tecnologia de produtos para desenvolver soluções baseadas em IA para os problemas mais desafiadores dos clientes da Thomson Reuters.

Filippo Pompili é Sr Pesquisador NLP no Centro de AI e Computação Cognitiva (C3) da Thomson Reuters. Filippo tem experiência em compreensão de leitura de máquina, recuperação de informações e modelagem de linguagem neural. Ele trabalha ativamente para trazer descobertas de aprendizado de máquina de última geração para os produtos mais avançados da Thomson Reuters.

Revisores

Renato Barbosa é Principal AI/ML GTM

O blog da AWS