Blog de Amazon Web Services (AWS)

Caso de Éxito – Cómo la red de estudios más grande de Brasil utiliza inteligencia artificial para optimizar la búsqueda de contenido en su plataforma

Por Gabriel Bella Martini, Arquitecto de soluciones, AWS PS Brasil
Larissa Oliveira Ribeiro da Paz, Ingeniero de Software, Passei Direto
Pedro Henrique Rosendo Diniz, Gerente Tecnología, Passei Direto
Rodrigo Carlos de Albuquerque Calegario, Ingeniero de Software, Passei Direto

 

Fundada en 2012, Passei Direto es la mayor red de estudios en Brasil y tiene como objetivo facilitar el acceso al conocimiento para empoderar a las personas y transformar el futuro. En la actualidad, la red cuenta con más de 23 millones de usuarios y más de 9 millones de materiales en todos los niveles educativos.

 

Resumen

En la aplicación de Passei Direto, todos los contenidos son enviados por estudiantes o creados por Productores Verificados que son especialistas en ciertas asignaturas. Con varios formatos de materiales, incluyendo clases de video, resúmenes, preguntas y respuestas, ejercicios y más, los materiales se distribuyen en todas las disciplinas de todas las áreas del conocimiento. Para tener acceso ilimitado, los estudiantes pueden suscribirse al Plan Premium o ganar puntos mediante gamification.

 

El Desafío

Dentro del Passei Direto, cerca del 15% de los materiales son vídeos, audio o imágenes. Para encontrar estos materiales, el usuario tendría que buscar los metadatos del archivo proporcionado durante el proceso de carga (título, descripción, disciplina vinculada, etiquetas o nombre del usuario que lo envió). Debido a esto, la capacidad de búsqueda de imágenes/audios/vídeos era muy baja, ya que su contenido no se usaba en el proceso de búsqueda.

En los últimos años, el aumento de usuarios en dispositivos móviles (hoy representan alrededor del 50% del tráfico mensual de Passei Direto) también fue llevando a un aumento en la cantidad de imágenes referidas a fotos de mapas mentales, ejercicios resueltos, resúmenes en cuadernos, entre otras formas de compartir contenido. Estos tipos de materiales son muy buscados dentro de Passei Direto y es necesario extraer su contenido para facilitar su búsqueda.

Otro factor importante es el incentivo para enviar vídeos, especialmente por parte de productores verificados, ya que este tipo de material es uno de los más utilizados para el estudio. Los vídeos actualmente representan alrededor del 35% de la producción de contenido verificada de los productores.

Como desafío, se planteó:

  • Habilitar la indexación de los contenidos de vídeos, audios e imágenes en el sistema de búsqueda;
  • Aumentar la cantidad de Click Through Rate de resultados en la página de búsqueda de materiales con formatos de vídeo, audio e imagen;
  • Mejorar el ranking de optimización de motores de búsqueda (SEO) de páginas de archivos sin registrar para imágenes, audios y vídeos.

 

La solución

La solución consta de tres etapas principales. El primer paso es el proceso de captura de nuevos materiales, documentos y vídeos, y la programación del siguiente paso en forma asíncrona. En el segundo paso, la solución utilizará los servicios de inteligencia artificial y aprendizaje automático para extraer contenido de materiales y habilitar la indexación. Finalmente, la tercera etapa se encarga de interpretar el resultado de la extracción, almacenar los resultados y actualizar el motor de búsqueda.

 

Arquitectura para extraer contenido

La arquitectura de la solución se describe en la siguiente figura:

 

Figura 1 : arquitectura de la solución

 

 

  1. Captura de nuevo material para la extracción

Para cargar un archivo utilizamos la funcionalidad ManagedUpload del SDK de Amazon S3. El Material Upload Service es responsable de gestionar una carga y decidir, de acuerdo con el archivo enviado, cuándo utilizar función de Multipart Upload (archivos de más de 100 MB). Al final de la carga, se envía una notificación con los metadatos de creación de archivos a un tópico de Amazon SNS. Hay una cola en Amazon SQS que se suscribe a este tópico de Amazon SNS y donde el Consumidor (Material Consumer Service) recibe este mensaje para procesarlo.

  1. Extracción de texto de documentos y vídeos

Cuando el Material Consumer Service recibe el mensaje, se verifica que la extracción aún no se ha producido y que tiene un formato compatible con los servicios de AWS Artificial Intelligence and Machine Learning. Después de esta verificación, el vídeo/audio/imagen se envía a través del extract handler al servicio de extracción de texto apropiado, Amazon Transcribe para vídeo/audio y Amazon Textract para las imágenes.

Todo este proceso es asincrónico y puede enviar varias solicitudes de extracción, así como recibir múltiples respuestas al estado de esta solicitud a medida que finaliza el proceso de extracción.

  1. Procesamiento e indexación de resultados de extractos

Una vez finalizado un extracto de imagen, se envía una notificación al tópico Amazon Textract en Amazon SNS, donde la cola de Amazon SQS asociada con Material Consumer Service también está vinculada con el proceso de respuesta.

Cuando finaliza un extracto del contenido de vídeo/audio, Amazon Transcribe envía un evento a Amazon Cloudwatch Events, generando un mensaje en la cola de Amazon SQS con el estado de la extracción.

Cuando un mensaje de finalización de extracción de vídeo/audio/imagen llega al consumidor, comprueba su estado; de acuerdo con este valor se pueden realizar dos acciones:

    • Si el estado del mensaje es un error, el controlador de errores registra en la base de datos relacional (Amazon RDS MySQL) que la extracción del contenido del material ha tenido un error y se tomarán acciones futuras.
    • Si el estado del mensaje es correcto, el success handler registra los datos de extracción en un bucket de Amazon S3 y comprueba el nivel de confianza del texto extraído. Al estar por encima de un umbral esperado, el resultado de la extracción está disponible para la indexación de los motores de búsqueda (Amazon EC2 Elasticsearch). Además, el estado de extracción también se guarda en la base de datos relacional. Con este resultado Passei Direto utiliza el contenido para mejorar la indexación SEO de páginas no registradas.

 

Resultados

Como objetivo principal, Passei Direto desea mejorar la viabilidad de los materiales de formato de imagen, audio y vídeo en la red de estudio mediante el uso de los servicios de AWS Artificial Intelligence y Machine Learning. Los principales resultados son:

  • Alrededor del 95% del contenido (texto) de este tipo de materiales están indexados en la búsqueda interna en la actualidad. Antes de la solución propuesta, no se indizaba ningún texto de imágenes, audio ni vídeo;
  • Uso de contenido de vídeo extraído para texto en páginas no registradas. Aún no ha sido posible garantizar estadísticamente la mejora del tráfico como resultado de la indexación SEO a través de esta acción, ya que esta solución se lanzó recientemente;
  • Uso del texto de estos materiales para recomendar contenido similar. Anteriormente no se recomendaba vídeo/imagen/audio en la red mediante esta técnica;
  • El CTR (tasa de clics) de los materiales de vídeo/audio/imagen en la página de búsqueda aumentó en aproximadamente un 200% en promedio (este valor varía según el mes del año).

 

Voz del cliente

En palabras de Vinícius Soares, Gerente de Producto de la plantilla de Descubrimiento de Contenido de Passei Direto, “Una de las premisas que tenemos como equipo de Descubrimiento de Contenidos es hacer que todos los materiales disponibles en nuestra red de estudios puedan ser encontrados por nuestros estudiantes. Desde 2019, hemos estado mapeando oportunidades para avanzar en la extracción de contenido de vídeos e imágenes que contienen texto. Nuestra solución debería mejorar el resultado de nuestro compromiso conen el contenido, no sólo facilitar la búsqueda a los estudiantes de este tipo de materiales, sino también permitir que nuestro sistema de recomendaciones utilice los textos extraídos en sus algoritmos, optimizando los dos frentes principales del escuadrón. El recurso de AWS ha demostrado ser asertivo, eficiente y ágil para nuestros procesos, lo que hace que la aplicación sea extremadamente útil para nuestros objetivos.”

 

Finalización y pasos siguientes

En esta publicación de blog, mostramos cómo Passei Direto utilizó los servicios de AWS para crear una solución que impacta a millones de estudiantes de todo Brasil. Como pasos siguientes, Passei Direto se centra en el uso de la Inteligencia Artificial para la recomendación de contenido personalizado utilizando texto extraído de imágenes/vídeos/audio para mejorar el aprendizaje, categorización de materiales en temas para la optimización de búsquedas, generación automática de subtítulos para vídeos extraídos en Amazon Transcribe y creación de texto alternativo de imágenes para mejorar la accesibilidad a este contenido.

 

Este artículo fue traducido del Blog de AWS en Portugués

 


Sobre los autores

Gabriel Bella Martini es arquitecto de soluciones de AWS con un enfoque en los clientes de educación. Tiene experiencia en diferentes proyectos relacionados con la Inteligencia Artificial y gran interés en los gráficos por ordenador.

 

 

 

 

Larissa Oliveira Ribeiro da Paz es ingeniera principal de software en Passei Direto. Tiene experiencia en proyectos en diversas áreas del sistema y un gran interés en la arquitectura de soluciones, el rendimiento y la escalabilidad del sistema.

 

 

 

 

Pedro Henrique Rosendo Diniz es Gerente de Tecnología en Passei Direto de la plantilla de Descubrimiento de Contenido, con un enfoque en las áreas de búsqueda y recomendación del sitio. Tiene experiencia en proyectos relacionados con Inteligencia Artificial y recientemente ha estudiado sobre la Web Semántica.

 

 

 

Rodrigo Carlos de Albuquerque Calegario es Ingeniero de Software en Passei Direto y forma parte del equipo de Descubrimiento de Contenido con un enfoque en las áreas de búsqueda y recomendación del sitio. Tiene experiencia en proyectos relacionados con Ingeniería de Software y recientemente ha estado estudiando el Gráfico de Conocimiento.