Automatização do processamento de dados não estruturados com o Amazon SageMaker

Como estava esse conteúdo?

por Nikhil Dinesh, diretor de desenvolvimento de negócios de startups da região DACH, AWS e Sayon Saha, arquiteto de soluções especialista em machine learning na AWS

Dados não estruturados, como imagens, vídeos e textos, que aparecem nas listas de produtos de comércio eletrônico têm um impacto significativo na taxa de conversão. Um estudo da eBay Research descobriu que imagens superdimensionadas podem aumentar a conversão em 15,3%, com outros fatores como contagem de fotos e condição do item, desempenhando um papel significativo. Os mercados e os vendedores devem otimizar a conversão com base em um conjunto aberto de fatores determinados pelas equipes de marketing. O uso da ciência de dados e do machine learning (ML) para resolver esse problema não é novo: a AWS criou vários serviços para ajudar com os aspectos indiferenciados do machine learning, como Amazon Rekognition (para imagens e vídeos), Amazon Comprehend (para texto), Amazon SageMaker (para desenvolvimento e implantação de modelos) e Amazon SageMaker GroundTruth (para anotação de dados).

A Super.AI, uma startup com sede em Berlim, acredita que há uma oportunidade significativa de montar esses elementos básicos da maneira certa e com a experiência de usuário certa em relação ao que eles chamam de Processamento de Dados Não Estruturados (UDP) em vários setores. De acordo com o Gartner, 80% dos dados em uma empresa típica não são estruturados. A plataforma da Super.AI extrai informações práticas de dados não estruturados, permitindo que as empresas automatizem processos comerciais complexos. De acordo com Brad Cordova, empreendedor serial de IA e fundador/CEO da super.AI, os “clientes de comércio eletrônico, serviços de TIC (testes, inspeção e certificação), seguros, saúde, manufatura e agricultura estão usando a plataforma super.AI para automatizar casos de uso complexos, como avaliação da qualidade da lista de produtos, inspeção visual, detecção de danos em veículos e avaliação do rendimento da safra. Nossos clientes estão obtendo um ROI significativo por meio da redução de tempo e dos custos, menos erros e maior satisfação do cliente.”

Este artigo mostrará onde a ingestão de dados, a pré-rotulagem, o pipeline de aprendizado ativo e a rotulagem assistida em tempo real se enquadram na arquitetura da super.AI na AWS, seguida por uma discussão sobre as metas, os riscos e onde detectamos oportunidades de melhoras.

Plataforma de processamento de dados não estruturados da Super.AI

A plataforma super.AI ajuda os clientes a transformar processos que envolvem dados não estruturados como imagens, vídeos, texto, documentos e áudio, e a automatizá-los usando uma combinação de IA, software e humanos. Esta demonstração de categorização de imagens de produtos da super.AI mostra como a categorização de imagens de produtos da super.AI pode ajudar os varejistas a aumentar as conversas no site.

Aprendizagem ativa e pré-rótulos

Os clientes da Super.AI solicitaram um mecanismo de rotulagem mais eficiente e altamente preciso. Então, eles lançaram recentemente um novo recurso chamado Active Learning and Pre-labeling, em que o pipeline pré-processa pontos de dados usando um modelo de ML em execução no SageMaker. Essa solução prioriza a rotulagem de pontos de dados que são mais úteis para o modelo. O modelo de ML é executado em todos os pontos de dados carregados para gerar uma saída, por exemplo, uma pontuação de confiança, usada para servir os pontos de dados de forma priorizada. Os pré-rótulos são gerados sempre que possível e enviados ao rotulador humano para revisão ou edição.

O pipeline então escala de acordo com a demanda. Os clientes podem fazer upload de dados via API (ou IU) e aplicar vários modelos para aprendizado ativo e pré-rotulagem. Os clientes podem escolher entre uma seleção de modelos fornecidos pela super.AI ou trazer seu próprio modelo. A Super.AI usa a pontuação de confiança gerada pelo modelo de ML para priorizar os pontos de dados e atendê-los com mais eficiência. Quando necessário, os rotuladores humanos podem usar rótulos prévios gerados pelo sistema para rotular os dados manualmente com precisão.

Rotulagem assistida em tempo real

A plataforma utiliza uma arquitetura sem servidor com o SageMaker. Os clientes devem ter esse serviço em tempo real para rotular suas imagens. A ferramenta utiliza o AWS Lambda em combinação com os endpoints do Amazon SageMaker para atender solicitações simultâneas em tempo real com tempo de resposta inferior a 10 segundos. Você pode explorar a aplicação de marcação de imagens da super.AI na documentação on-line.

Criar um pipeline de aprendizado ativo com o Amazon SageMaker GroundTruth

O SageMaker Ground Truth é um serviço gerenciado de rotulagem de dados para criar conjuntos de dados de ML rotulados com precisão em grande escala com várias opções de força de trabalho Junto com os vários fluxos de trabalho de rotulagem de dados integrados e personalizados para texto, imagem, vídeos e nuvens de pontos 3D, ele permite que você crie um pipeline automatizado de rotulagem de dados com aprendizado ativo, anotando automaticamente objetos com modelos de ML relevantes e atribuindo objetos com menor confiança para anotações humanas.

A primeira etapa do pipeline inclui o envio de uma amostra aleatória de conjuntos de dados para anotação humana pelo SageMaker Ground Truth com o objetivo de treinar e validar o modelo usado para rotulagem automática. A pontuação de confiança e a métrica de qualidade das saídas do modelo treinado nos dados de validação são comparadas com o limite para decidir sobre os rótulos de qualidade para anotar o restante do conjunto de dados. Dependendo se a pontuação de confiança atinge o limite desejado, um objeto é considerado rotulado automaticamente ou enviado à força de trabalho humana para anotação. Essas anotações, por sua vez, são usadas para atualizar e melhorar o modelo de rotulagem automática. Esse pipeline de aprendizado ativo continua sendo processado até que o conjunto de dados necessário seja totalmente rotulado ou que outra condição de interrupção seja atendida (saiba mais neste artigo sobre como automatizar a rotulagem de dados). O processo de aprendizado ativo é ilustrado no diagrama a seguir:

Embora muitos clientes da AWS simplesmente usem seus modelos de ML integrados, o SageMaker Ground Truth permite que você traga seus próprios modelos se tiver um caso de uso personalizado. Você pode ler mais sobre isso no blog “Bring Your Own Model for Amazon SageMaker Labeling Workflows with Active Learning”.

A técnica de aprendizado ativo torna o processo de rotulagem de dados muito mais rápido ao identificar o subconjunto de dados com os quais seus rotuladores devem trabalhar. Essa técnica também reduz significativamente o custo da força de trabalho, mantendo a alta precisão das anotações. Você pode ler sobre um exemplo de caso de uso de trabalho de detecção de objetos com rotulagem automatizada de dados no blog “Annotate Data for Less with Amazon SageMaker Ground Truth and Automated Data Labeling”.

Conclusão

Nos últimos anos, a automação robótica de processos (RPA) tem sido uma das categorias de software que mais cresce, à medida que as empresas se esforçam para realizar a transformação digital. No entanto, 80% dos dados corporativos não são estruturados e por isso impossíveis de automatizar. As novas soluções de processamento de dados não estruturados de empresas como a super.AI, que utilizam os serviços de ML da AWS, estão ajudando as empresas a expandir consideravelmente o escopo da automação, extraindo informações práticas de dados não estruturados, como imagens, vídeos, áudio, documentos e texto. Essas plataformas podem abordar uma ampla variedade de casos de uso, desde a inspeção visual até a avaliação da qualidade da lista de produtos on-line, com o mínimo de intervenção humana. Os primeiros a usarem essas plataformas estão ganhando uma vantagem competitiva que reduz custos e erros, além de proporcionar uma experiência diferenciada para o cliente.

AWS Editorial Team

AWS Editorial Team

A equipe de Marketing de Conteúdo da AWS Startups colabora com startups de todos os tamanhos e setores para oferecer excepcional conteúdo educativo, divertido e inspirador.

Como estava esse conteúdo?