O blog da AWS
O Amazon Textract reconhece a caligrafia e adiciona cinco novos idiomas
Por Andrea Morton-Youmans PMM, Machine Learning
Os documentos são uma ferramenta importante para comunicação, colaboração, manutenção de registros e transações entre setores, incluindo o financeiro, médico, legal e imobiliário. A maneira como os dados estão formatados pode representar um desafio extra na extração de dados, especialmente se o conteúdo for digitado, manuscrito ou incorporado em um formulário ou uma tabela. Além disso, extrair dados de documentos é um processo manual, propenso a erros, demorado, caro e difícil de ser executado em escala. O Amazon Textract é um serviço de aprendizado de máquina (ML) que extrai texto e outros dados de documentos, bem como tabelas e formulários.
Temos o prazer de anunciar dois novos recursos para o Amazon Textract: suporte para reconhecimento de caligrafia em documentos em inglês, e expansão do suporte linguístico para extrair texto de documentos digitados em espanhol, português, francês, alemão e italiano.
Reconhecimento de texto manuscrito com o Amazon Textract
Muitos documentos, como formulários de ingestão médica ou pedidos de emprego, contêm textos manuscritos assim como impressos. A capacidade de extrair texto e caligrafia tem sido uma necessidade que nossos clientes nos pediram. O Amazon Textract agora pode extrair texto impresso e caligrafia de documentos escritos em inglês com um alto grau de confiança, seja a partir de um texto em formato livre ou texto incorporado em tabelas e formulários. Os documentos também podem conter uma mistura de texto digitado e texto manuscrito.
A imagem a seguir mostra um exemplo de documento contendo uma mistura de texto digitado e manuscrito, e seu documento de saída convertido.
Você pode fazer login no console do Amazon Textract para testar o recurso de caligrafia ou conferir a nova demonstração do Amazon Machine Learning Hero Mike Chambers.
Além de poder fazer upload de documentos com texto impresso e caligrafia, você também pode usar a IA aumentada da Amazon (Amazon A2I), o que facilita a criação de fluxos de trabalho para revisão humana das previsões de ML. Usar o Amazon A2I pode ajudá-lo a acelerar a adoção de ML e o desenvolvimento de novos produtos, fazendo com que seus funcionários ou contratados do AWS Marketplace analisem a saída do Amazon Textract para cargas de trabalho confidenciais. Para obter mais informações sobre como implementar uma revisão humana, consulte Como usar o Amazon Textract com a IA aumentada da Amazon para processar documentos críticos. Se você quiser usar um de nossos parceiros da AWS, veja como a Quantiphi está usando o reconhecimento de caligrafia para seus clientes.
Além disso, temos o prazer de anunciar nossa expansão linguística. Os clientes agora podem extrair e processar documentos em mais idiomas.
Novos idiomas compatíveis no Amazon Textract
O Amazon Textract agora oferece suporte ao processamento de documentos impressos em espanhol, alemão, italiano, francês e português. Você pode enviar documentos nesses idiomas, incluindo formulários e tabelas, para extração de dados e texto, e o Amazon Textract detecta e extrai automaticamente as informações para você. Você pode simplesmente fazer upload dos documentos no console do Amazon Textract ou enviá-los usando a AWS Command Line Interface (AWS CLI) ou AWS SDKs.
Histórias de sucesso de clientes AWS
Clientes da AWS como você estão sempre procurando maneiras de melhorar o processamento de documentos. Nesta seção, compartilhamos o que nossos clientes estão dizendo sobre o Amazon Textract.
Intuit
A Intuit é uma fornecedora de soluções inovadoras de gestão financeira, incluindo TurboTax e QuickBooks, para aproximadamente 50 milhões de clientes em todo o mundo.
“A tecnologia de compreensão de documentos da Intuit usa a IA para eliminar a entrada manual de dados para nossos consumidores, pequenas empresas e clientes independentes. Para milhões de americanos que confiam no TurboTax todos os anos, essa tecnologia simplifica a apresentação de impostos, salvando-os da tediosa e demorada tarefa de inserir dados de documentos financeiros. Textract é um elemento importante da capacidade de compreensão de documentos da Intuit, melhorando a precisão de extração de dados através da análise do texto no contexto de formulários financeiros complexos.”
— Krithika Swaminathan, Vice-presidente de AI, Intuit
Veeva
A Veeva ajuda empresas de cosméticos, bens de consumo e empresas químicas a trazer produtos inovadores e de alta qualidade para o mercado mais rapidamente sem comprometer a conformidade.
“Nossos clientes estão processando milhões de documentos por ano e têm uma necessidade crítica de extrair as informações armazenadas nos documentos para tomar decisões comerciais significativas. Muitos dos nossos clientes são organizações multinacionais, o que significa que os documentos são enviados em vários idiomas, como espanhol ou português. Nossa recente parceria com a AWS nos permitiu acesso antecipado ao novo recurso do Amazon Textract que oferece suporte a idiomas adicionais, como espanhol e português. Esta parceria com o Textract tem sido fundamental para trabalhar de perto, iterar e fornecer soluções excepcionais aos nossos clientes.”
— Ali Alemdar, Gerente Sênior de Produto, Veeva Industries
Baker Tilly
A Baker Tilly é uma empresa líder em consultoria, tributária e garantia, dedicada a construir relacionamentos duradouros e ajudar os clientes com seus problemas mais urgentes – e permitindo que eles criem novas oportunidades.
“Em todos os setores, os formulários são uma das formas mais populares de coletar dados. Os esforços manuais podem levar horas ou dias para “ler” através de formulários digitais. Aproveitando a tecnologia de reconhecimento óptico de caracteres (OCR) do Amazon Textract, agora podemos ler esses formulários digitais de forma mais rápida e sem esforço. Aproveitamos a caligrafia como parte do Textract para analisar entidades manuscritas. Isso permite que nossos clientes façam upload de formulários com texto digitado e manuscrito, e melhorem sua capacidade de tomar decisões-chave por meio de dados rapidamente em um processo simplificado. Além disso, o Textract se integra facilmente ao Amazon S3 e ao RDS para acesso instantâneo a formulários processados e análises quase em tempo real.”
-Ollie East — Diretor de Análise Avançada e Engenharia de Dados
ARQ Group
O ARQ Group é o principal fornecedor de soluções digitais de ponta a ponta para o mercado corporativo e governamental.
“No ARQ Group, trabalhamos com diferentes empresas de transporte e suas equipes de manutenção de ativos físicos. Seus processos foram refinados ao longo de muitos anos. Tentativas anteriores de digitalizar o processo causaram muita interrupção e, consequentemente, não foram adotadas. O Textract nos permitiu fornecer uma solução híbrida para obter os benefícios de insights preditivos provenientes da digitalização de dados de manutenção, enquanto ainda permite que nossa força de trabalho de clientes continue seguindo seu processo escrito à mão preferido. Espera-se que isso resulte em uma redução de 22% no tempo de inatividade e redução de 18% no custo de manutenção, pois agora podemos prever quando as peças provavelmente falharão e agendar que a manutenção aconteça fora das horas de produção. Também estamos esperando que a vida útil dos ativos de nossos clientes aumente, agora que estamos prevenindo cenários de falha.”
— Daniel Johnson, Diretor de Segmento Empresarial, ARQ Group
Belle Fleur
Belle Fleur acredita que a revolução da ML está alterando a maneira como vivemos, trabalhamos e nos relacionamos uns com os outros, e transformará a maneira como todos os negócios em cada setor operam.
“Usamos o Amazon Textract para detectar texto para nossos clientes que têm os três Vs quando se trata de dados: Variedade, Velocidade e Volume, e particularmente nossos clientes que têm formatos de documentos diferentes para processar informações e dados de forma adequada e eficiente. O recurso que reconhece os vários formatos diferentes sejam eles tabelas ou formulários, e agora reconhecimento de caligrafia, é um sonho de IA tornado realidade para nossos clientes de imóveis médicos, legais e comerciais. Estamos tão animados em lançar este novo recurso de caligrafia para todos os nossos clientes para melhorar ainda mais sua solução atual, especialmente aqueles com equipes enxutas. Somos capazes de permitir que o aprendizado de máquina lide com o trabalho pesado via automação para ler milhares de documentos em uma fração do tempo e permitir que suas equipes se concentrem em tarefas de ordem superior.”
— Tia Dubuisson, Presidente, Belle Fleur
Lumiq
A Lumiq é uma empresa de análise de dados, que detém o profundo domínio e conhecimento técnico para criar e implementar produtos e soluções orientados por IA e ML. Seus produtos de dados são criados como blocos de construção e executados na AWS, o que ajuda seus clientes a dimensionar o valor de seus dados e gerar resultados comerciais tangíveis.
“Com milhares de documentos sendo gerados e recebidos em diferentes estágios do ciclo de vida do engajamento do consumidor todos os dias, um de nossos clientes (um provedor líder de serviços de seguros na Índia) teve que investir várias horas manuais para analisar a entrada de dados, a qualidade dos dados e sua validação. Os conjuntos de documentos consistiram em formulários de proposta, documentos comprovativos para identidade, finanças, relatórios médicos, entre outros. Esses documentos estavam em formatos diferentes e não padronizados e alguns deles foram manuscritos, resultando em um aumento de atraso médio na emissão de políticas e impactou a experiência do cliente.
“Nós aproveitamos o Textract com tecnologia de aprendizado de máquina da Amazon para extrair informações e insights de vários tipos de documentos, incluindo texto manuscrito. Nossa solução personalizada criada com base no Amazon Textract e outros serviços da AWS ajudou a obter uma redução de 97% no trabalho humano para a remoção de PII e uma redução projetada de 70% nas horas de trabalho para entrada de dados. Estamos entusiasmados em aprofundar ainda mais o uso do Textract para fornecer aos nossos clientes um fluxo de trabalho sem papel E2E (fim-a-fim) e melhorar a experiência do consumidor final com uma economia de tempo significativa.”
— Mohammad Shoaib, Fundador e CEO da Lumiq (Crisp Analytics)
QL Resources
A QL está entre os maiores produtores de ovos e fabricantes de surimi da ASEAN, e está construindo uma presença no setor de óleo de palma sustentável com atividades como moagem, plantações e energia limpa de biomassa.
“Temos uma grande quantidade de documentos manuscritos que são gerados diariamente em nossas fábricas, onde é um desafio instalar dispositivos onipresentes de captura digital. Com a solução personalizada desenvolvida pelo nosso parceiro da AWS Axrail usando o Amazon Textract e vários serviços da AWS, podemos digitalizar documentos para formulários impressos e manuscritos que geramos diariamente no chão de fábrica, especialmente em áreas de produção onde as ferramentas de captura digital não estão disponíveis ou não é econômico tê-las. Esta é uma solução sensata e complementa o link ausente para digitalização completa de nossos dados de produção.”
— Chia Lik Khai, Diretor, Recursos QL
Resumo
Fazemos melhorias continuamente em nossos produtos com base em seus comentários e encorajamos você a fazer login no console do Amazon Textract e fazer upload de um documento de exemplo e usar as APIs disponíveis. Você também pode conversar com seu gerente de conta sobre a melhor forma de incorporar esses novos recursos. O Amazon Textract tem muitos recursos para ajudar você a começar, como postagens de blog, vídeos, parceiros e guias de introdução. Confira a página Recursos do Textract para obter mais informações.
Você tem milhões de documentos, o que significa que você tem uma tonelada de dados significativos e críticos dentro desses documentos. Você pode extrair e processar seus dados em segundos e não em dias, e mantê-los seguros usando o Amazon Textract. Comece hoje mesmo.
Este artigo foi traduzido do Blog da AWS em Inglês.
Sobre o Autor
Andrea Morton-Youmans é Gerente de Marketing de Produto na equipe de serviços de IA da AWS. Nos últimos 10 anos, ela trabalhou nas indústrias de tecnologia e telecomunicações, focada em campanhas de marketing e storytelling para desenvolvedores. Em seu tempo livre, ela gosta de ir para o lago com seu marido e cachorro australiano Oakley, degustando vinho e curtindo um filme de vez em quando.
Paulo Aragão é um Arquiteto de Soluções Sênior que trabalha há mais de 20 anos com clientes Enterprise. Com ampla experiência em Computação de Alta Performance (HPC), atualmente dedica seus dias a ajudar clientes a inovarem através do uso de serviços de IA e ML na nuvem AWS. Apaixonado por música e mergulho, você pode encontra-lo em vídeos de covers musicais no Youtube ou no fundo do mar. No seu tempo livre, gosta de ler livros e cozinhar para os amigos.