O blog da AWS

Case de Sucesso – Como a maior rede de estudos do Brasil está usando inteligência artificial para otimizar a busca de conteúdo em sua plataforma

Gabriel Bella Martini, Arquiteto de Soluções, AWS Brasil Setor Público
Larissa Oliveira Ribeiro da Paz, Engenheira de Software, Passei Direto
Pedro Henrique Rosendo Diniz, Tech Manager, Passei Direto
Rodrigo Carlos de Albuquerque Calegario, Engenheiro de Software, Passei Direto

 

Fundado em 2012, o Passei Direto é a maior rede de estudos do Brasil e tem o propósito de facilitar o acesso ao conhecimento para empoderar as pessoas e transformar o futuro. Hoje, a rede conta com mais de 23 milhões de usuários e mais de 9 milhões de materiais em todos os níveis de ensino.

 

Overview

Na aplicação do Passei Direto, todos os conteúdos são enviados por estudantes ou criados por Produtores Verificados, que são especialistas em determinados assuntos. Com diversos formatos de materiais entre video-aulas, resumos, perguntas e respostas, exercícios e muito mais, os materiais são distribuídos por disciplinas em todas as áreas do conhecimento. Para ter acesso ilimitado, os estudantes podem assinar o Plano Premium ou ganhar pontos na Gamificação.

 

O Desafio

Dentro do Passei Direto, cerca de 15% dos materiais são vídeos, áudios ou imagens. Para encontrar esses materiais, o usuário precisaria pesquisar pelos metadados do arquivo fornecidos durante o processo de upload (título, descrição, disciplina vinculada, tags ou nome do usuário que o enviou). Por conta disso, a encontrabilidade de imagens, áudios ou vídeos era muito baixa, já que o seu conteúdo não era utilizado no processo da busca.

Nos últimos anos, o aumento de usuários em dispositivos móveis (hoje representam cerca 50% do tráfego mensal do Passei Direto) também levou ao aumento da quantidade de imagens referentes às fotos de mapas mentais, exercícios resolvidos, resumos em cadernos, entre outras formas de compartilhar conteúdo. Esses tipos de materiais são muito procurados dentro do Passei Direto sendo necessário a extração do seu conteúdo para aumentar sua encontrabilidade.

Outro importante fator é o incentivo ao envio de vídeos, principalmente por parte dos produtores verificados, já que esse tipo de material é um dos mais utilizados para estudo. Hoje os vídeos representam cerca de 35% da produção de conteúdo dos produtores verificados.

Como desafio o Passei Direto gostaria de:

  • Possibilitar a indexação do conteúdo dos vídeos, áudios e imagens no sistema de busca;
  • Aumentar a quantidade de interações por visualizações (Click Through Rate) dos resultados na página de busca dos materiais com formatos de vídeos, áudios e imagens;
  • Melhorar o ranking de SEO (Search Engine Optimization) das páginas de arquivo deslogadas referente a imagens, áudios e vídeos.

 

A Solução

A solução é composta por três principais etapas. A primeira etapa é referente ao processo de captura de novos materiais, documentos e vídeos, e o agendamento para efetuação da extração de forma assíncrona. Na segunda etapa, a solução irá utilizar serviços de Inteligência Artificial e Aprendizado de Máquina para extrair o conteúdo dos materiais e possibilitar a indexação. Por fim, a terceira etapa é responsável por interpretar o resultado da extração, armazenar os resultados e atualizar o motor de busca.

 

Arquitetura para extração de conteúdo

A arquitetura da solução é descrita na figura abaixo:

 

Figura 1 – Arquitetura da Solução

 

Agora vamos entrar em mais detalhes nas três etapas da solução.

Etapa 1 – Capturando um novo material para a extração

Para realização do upload de um arquivo utilizamos a funcionalidade de ManagedUpload do SDK do Amazon S3. O serviço Material Upload Service é responsável por gerenciar um upload e decidir, de acordo com o arquivo enviado, quando utilizar Multipart Upload (arquivos com mais de 100MB). Ao termino do upload é enviada uma notificação com os metadados da criação do arquivo para um tópico do Amazon SNS. Existe uma fila no Amazon SQS que assina este tópico do Amazon SNS e onde o consumidor (Material Consumer Service) recebe essa mensagem para processá-la.

 

Etapa 2 – Extraindo texto dos documentos e vídeo

Quando a mensagem é recebida pelo Material Consumer Service, é verificado se a extração ainda não ocorreu previamente e se ele tem um formato suportado pelos serviços de Inteligência Artificial e Aprendizado de Máquina da AWS. Após essa verificação, o vídeo/áudio/imagem é enviado através do extract handler para o serviço adequado de extração de texto, o Amazon Transcribe para vídeos/áudio e o Amazon Textract para imagens.

Todo esse processo é assíncrono, podendo enviar várias requisições para extração, assim como receber várias respostas do status dessa requisição à medida que termine o processo de extração.

 

Etapa 3 – Processando e indexando os resultados da extração

Assim que uma extração de imagens é finalizada, uma notificação é enviada para o tópico do Amazon Textract no Amazon SNS, no qual a fila do Amazon SQS associada ao Material Consumer Service também está vinculado com a resposta do processo.

Já quando uma extração do conteúdo do vídeo/áudio é finalizada, o Amazon Transcribe envia um evento para o Amazon Cloudwatch Events, gerando uma mensagem na fila do Amazon SQS com o status da extração.

Quando uma mensagem de conclusão de extração de vídeo/áudio/imagem chega no consumidor, verifica-se o seu status, de acordo com esse valor duas ações podem ser tomadas:

  • Caso o status da mensagem seja de falha, o error handler registra no banco relacional (Amazon RDS MySQL) que a extração do conteúdo do material teve um erro e futuras ações serão tomadas.
  • Caso o status da mensagem seja de sucesso, o success handler registra os dados da extração em um bucket no Amazon S3 e verifica o nível de confiança do texto extraído. Estando ele acima de um limiar esperado, o resultado da extração fica disponível para a indexação no motor de busca (Amazon EC2 Elasticsearch). Além disso, o status da extração também é salvo no banco relacional. Com esse resultado o Passei Direto utiliza o conteúdo para melhorar a indexação via SEO das páginas deslogadas.

 

Resultados

Como objetivo principal, o Passei Direto gostaria de melhorar a encontrabilidade de materiais com formato de imagem/vídeo/áudio na rede de estudos através do uso de serviços de Inteligência Artificial e Aprendizado de Máquina da AWS. Os principais resultados são:

  • Cerca de 95% do conteúdo (texto) desses tipos de materiais estão indexados na busca interna hoje em dia. Antes da solução aqui proposta, nenhum texto de imagem/vídeo/áudio era indexado;
  • Utilização do conteúdo dos vídeos extraídos para texto em páginas deslogadas. Ainda não foi possível garantir estatisticamente a melhoria do tráfego via SEO através dessa ação, pois essa solução foi lançada recentemente;
  • Utilização do texto desses materiais para recomendação de conteúdos semelhantes. Antigamente nenhum vídeo/imagem/áudio era recomendado na rede por esta técnica;
  • O CTR (Click Through Rate) dos materiais de vídeo/áudio/imagem na página de busca tiveram um aumento de cerca de 200% em média (esse valor varia de acordo com o mês do ano).

 

Voz do Cliente

Nas palavras de Vinícius Soares, Gerente de Produtos da squad de Content Discovery do Passei Direto, “Uma das premissas que temos enquanto squad de Content Discovery é tornar todos os materiais disponibilizados na nossa rede de estudos possíveis de serem encontrados pelos nossos estudantes. Desde de 2019, vínhamos mapeando oportunidades de avançar na extração do conteúdo de vídeos e imagens que contivessem texto. A nossa solução deveria por finalidade melhorar nosso outcome de engajamento nos conteúdos, não somente pela busca dos estudantes por tais materiais, mas também que permitisse que nosso sistema de recomendação utilizasse dos textos extraídos em seus algoritmos, otimizando as duas principais frentes da squad. O recurso da AWS se mostrou assertivo, eficiente e ágil para nossos processos, tornando a aplicação extremamente útil para nossos objetivos.”

 

Conclusão e próximos passos

Neste blog post mostramos como o Passei Direto utilizou serviços AWS para criar uma solução que impacta milhões de estudantes ao redor do Brasil. Como próximos passos o Passei Direto está focando na utilização de Inteligência Artificial para recomendação personalizada de conteúdo utilizando o texto extraído das imagens/vídeos/áudios para a melhoria da aprendizagem, categorização dos materiais em assuntos/temas para otimização das buscas, geração automática de legendas para os vídeos extraídos no Amazon Transcribe e criação de textos alternativos para figuras, de forma a melhorar a acessibilidade destes conteúdos.

 

 


Sobre os autores

Gabriel Bella Martini é um Arquiteto de Soluções na AWS com foco em clientes de Educação. Tem experiência em diferentes projetos relacionados a Inteligência Artificial e tem grande interesse na área de computação gráfica.

 

 

 

 

Larissa Oliveira Ribeiro da Paz é uma Engenheira de Software Principal no Passei Direto. Tem experiência em projetos em várias áreas do sistema e tem grande interesse em arquitetura de soluções, performance e escalabilidade de sistemas.

 

 

 

 

Pedro Henrique Rosendo Diniz é um Tech Manager no Passei Direto da squad de Content Discovery com foco nas áreas de busca e recomendação do site. Tem experiência com projetos relacionados à Inteligência Artificial e ultimamente tem estudado sobre Web Semântica.

 

 

 

 

Rodrigo Carlos de Albuquerque Calegario é um Engenheiro de Software na Passei Direto integrante da squad de Content Discovery com foco nas áreas de busca e recomendação do site. Tem experiência com projetos relacionados à Engenharia de Software e ultimamente tem estudado sobre Knowledge Graph.