Blog de Amazon Web Services (AWS)
PBS ofrece experiencias personalizadas a los espectadores con Amazon Personalize
Public Broadcasting Service (PBS) quería crear un motor de recomendaciones inteligentes (SRE) que pudiera hacer sugerencias de alta calidad a los espectadores en función de numerosos factores.
Para garantizar el éxito, PBS decidió asociarse con una consultora en la nube con experiencia en inteligencia artificial (IA) y machine learning (ML) y un profundo conocimiento de la plataforma de Amazon Web Services (AWS).
ClearScale, un socio de servicios de nivel premier de AWS con 11 competencias en AWS, entre las que se incluyen el machine learning, las organizaciones sin ánimo de lucro y los datos y análisis, fue una opción excelente para PBS y proporcionó a la organización sin ánimo de lucro exactamente lo que necesitaba para mejorar significativamente las experiencias de los espectadores en la era del streaming.
«Colaboramos con ClearScale para establecer y configurar nuestras soluciones y canalizaciones de datos iniciales», explica Mikey Centrella, director de administración de productos de PBS. «Necesitábamos aprovechar la información más rápidamente y lanzar algo en meses en lugar de hacerlo en años. Sus expertos establecieron una configuración de la nube de AWS y los servicios relacionados para utilizar Amazon Personalize con el fin de ahorrarnos una enorme cantidad de esfuerzo y miles de horas de ingeniería».
PBS es una organización sin ánimo de lucro con sede en Arlington (Virginia), fundada en 1969, que emite programas educativos, de noticias y de entretenimiento a más de 100 millones de espectadores en Estados Unidos y a más de 32 millones de personas a través de Internet. En la actualidad, PBS cuenta con aproximadamente 330 emisoras de televisión, que distribuyen contenidos de la más alta calidad en los 50 estados de EE.UU., Puerto Rico, las Islas Vírgenes de EE. UU., Guam y Samoa Americana.
El desafío
Al igual que muchos de los medios de comunicación y plataformas de streaming líderes en la actualidad, PBS quería llevar su experiencia general de usuario al siguiente nivel. La organización esperaba ofrecer a las audiencias mejores recomendaciones de programación en la aplicación basadas a partir de multitud de factores (vínculos profundos entre los títulos, tendencias de popularidad actuales, patrones de comportamiento de los usuarios, etc.), para mejorar el compromiso y la fidelidad a largo plazo.
A simple vista, la creación de un motor de recomendaciones de este tipo parece compleja. Sin embargo, la realidad es que crear estos motores no requiere experiencia en ciencia de datos ni dominio de IA ni ML. Las empresas solo tienen que encontrar la combinación adecuada de herramientas y servicios nativos en la nube y, a continuación, alimentarlos con sus datos. Con el kit de herramientas adecuado, el desarrollo de estos servicios no dura años.
Afortunadamente, AWS ofrece soluciones de IA/ML administradas que permiten a los ingenieros aprovechar los modelos predefinidos y automatizar gran parte del duro trabajo de crearlos, entrenarlos y optimizarlos. El desafío consiste en saber cómo aprovechar al máximo lo que ofrece la nube, sobre todo teniendo en cuenta lo rápido que cambian las cosas.
Por eso PBS se puso en contacto con ClearScale, líder en MLOps, que es el tipo de experiencia técnica que PBS necesitaba para crear el sistema de recomendaciones ideal y mantenerlo a lo largo del tiempo. PBS y ClearScale decidieron avanzar conjuntamente con una solución impulsada por AWS sobre Amazon Personalize.
Figura 1: Diagrama de la arquitectura principal
Para que PBS creara un sistema de recomendaciones realmente diferenciado, la empresa necesitaba las últimas y mejores tecnologías en la nube que hubiera disponibles, además de la orientación de expertos en su implementación.
ClearScale elaboró un plan de desarrollo detallado para abordar el proyecto del sistema de recomendaciones de PBS que incluía operaciones de datos, operaciones de machine learning e interfaz de usuario de demostración.
Operaciones de datos
En primer lugar, ClearScale y PBS determinaron de forma conjunta qué orígenes de datos alimentarían los futuros modelos de ML:
- Media Manager de PBS
- Perfiles de usuario de PBS
- Metadatos de Google Analytics
PBS Media Manager es un sistema de administración de contenidos que las emisoras miembros de PBS utilizan para publicar y compartir títulos en diferentes plataformas. Media Manager también contiene metadatos enriquecidos, como la fecha de lanzamiento de un producto, las etiquetas y el autor, e incluye reglas que contribuyen a decidir lo que se muestra a los espectadores en los resultados de las búsquedas.
Por ejemplo, Media Manager tiene en cuenta la edad o la ubicación del espectador antes de hacer una recomendación. De este modo, los niños pequeños no se encuentran accidentalmente con títulos para audiencias de mayor edad, o a los espectadores de una región no se les recomienda una serie de noticias de otro lugar en la otra punta del país.
Los perfiles de usuario de PBS contienen detalles valiosos sobre cada espectador, como sus interacciones anteriores con las aplicaciones de PBS, sus listas de seguimiento, los tiempos de visualización y el historial de visualizaciones. Por lo tanto, los perfiles de los usuarios contienen algunas de las pruebas más evidentes de lo que los espectadores disfrutan viendo.
ClearScale y PBS también decidieron incorporar información contextual de Google Analytics para entender de forma más exhaustiva quién ve el contenido de PBS y dónde. Google Analytics dispone de información no confidencial sobre las personas que puede ser útil para inferir sus preferencias de visualización.
La plataforma también puede ver los tipos de dispositivos que utilizan los espectadores para ver el contenido, lo que sirve como otro punto de datos para que un sistema de recomendaciones lo tenga en cuenta. Por ejemplo, un espectador puede ver las noticias de PBS en su teléfono durante el trayecto en tren al trabajo. Pero, una vez en casa, puede ver programas en la televisión con sus hijos.
Para consolidar los datos de los dos primeros orígenes, ClearScale creó un entorno prototipo para una base de datos relacional de Amazon Aurora para PostgreSQL. La base de datos se encontraba totalmente aislada de los sistemas de producción de PBS para garantizar la máxima resiliencia de los procesos de extracción, transformación y carga (ETL). Los datos de Google Analytics se obtuvieron mediante una canalización de ingesta y se almacenaron en Amazon Simple Storage Service (Amazon S3).
Posteriormente, ClearScale implementó una canalización de datos que comenzó con AWS Glue, una solución nativa en la nube sin servidor para rastrear, validar y transformar datos de diversos orígenes. ClearScale también configuró AWS Glue para que los datos fueran consumibles al darles formato en Parquet y descargarlos en un lago de datos. Todos estos pasos se orquestan mediante AWS Step Functions, lo que permite a PBS beneficiarse de la administración automatizada del flujo de estados y de la gestión de excepciones.
AWS Lake Formation y Catálogo de datos de AWS Glue fueron decisivos para proteger el lago de datos de PBS y dirigir otros servicios en la nube a los almacenes de datos adecuados. A los datos del lago se puede acceder de dos maneras y en ambas se utiliza SQL estándar:
- El análisis sin servidor con Amazon Athena es lo más adecuado para las tareas de exploración ad hoc cuando el coste es el factor más esencial.
- Un sólido almacenamiento de datos sobre Amazon Redshift para obtener consultas periódicas y bien definidas con estrictos requisitos de SLA.
Con la infraestructura para las operaciones de datos aplicada, ClearScale estaba preparada para abordar la parte de MLOps del proyecto.
Operaciones de machine learning
ClearScale ayudó a PBS a establecer las cuatro etapas principales del ciclo de vida de ML:
- Desarrollo de modelos
- Entrenamiento
- Inferencia
- Evaluación
Afortunadamente, AWS ofrece a las empresas la posibilidad de aprovechar el poder de la ciencia de datos y el machine learning en estas cuatro etapas sin tener que crear los modelos desde cero.
Los ingenieros de datos de ClearScale crearon la versión inicial del motor de recomendaciones inteligentes basándose en Amazon Personalize, pero teniendo en cuenta que los ingenieros de PBS acabarían asumiendo la propiedad total. ClearScale utilizó Amazon FSx para Lustre a fin de que los datos estuvieran disponibles para el sistema a medida que se cargaran. El equipo también integró Amazon SageMaker Studio como el entorno de desarrollo que los ingenieros de ML utilizan para el mantenimiento de los modelos.
En el centro del trabajo de preproducción del modelo están AWS Lambda, Amazon Athena y AWS Step Functions. ClearScale los conectó con Amazon Personalize para obtener los datos, cargar los cambios y entrenar el modelo.
Con estos servicios, ClearScale seleccionó las recetas básicas (que son algoritmos de Amazon Personalize optimizados para casos de uso específicos) para el motor de recomendaciones inteligentes de PBS y creó cuatro modelos basados en diferentes requisitos por entrada y salida de recomendaciones:
- Modelo de ML de recuento de popularidad: sugiere programas de televisión basados en la popularidad de la corriente principal. Se trata del modelo más sencillo en cuanto a su alcance, pero es importante. Dado que otros modelos profundizan en los datos del pasado, sugieren programas pertinentes para el usuario pero distribuidos a lo largo del historial.
.
En el sector de los medios de comunicación y el entretenimiento, donde el objetivo es promocionar los títulos recientes, este modelo ayuda a que otros no profundicen excesivamente. Con la limitación de los datos que se tienen en cuenta para la semana anterior, es posible identificar las tendencias recientes y aumentarlas con las predicciones de otros modelos. Para mantener esas tendencias frescas, este modelo se vuelve a entrenar diariamente.
. - Modelo de ML de relaciones de elementos: sugiere programas de televisión basándose en el filtrado colaborativo para recomendar los programas más parecidos a aquellos con los que el espectador ha interactuado anteriormente. Con esta receta (SIMS) se profundiza para revelar las relaciones entre los programas, incluidas las que no son evidentes para la inteligencia humana a primera vista, ni para los algoritmos lineales y estadísticos tradicionales.
. - Modelo ML de historial de interacciones: sugiere programas de televisión basándose en los patrones de comportamiento del usuario mediante el aprendizaje activo. Con el aprendizaje activo, el modelo se nutre de las actividades del usuario en la misma sesión en la que se proporcionan las recomendaciones. Esto le permite descubrir nuevas reglas en segundos sin tener que pasar por un nuevo entrenamiento completo, que llevaría horas.
. - Modelo de ML de clasificación personalizada: clasifica los programas de televisión en función de las preferencias aparentes del usuario. En lugar de buscar elementos concretos, este algoritmo toma los suministrados por PBS (un resumen del tipo «Los mejores programas de Navidad», por ejemplo) y los devuelve en un orden que refleja las preferencias del usuario.
Comparación de modelos de machine learning | ||||
Criterios | Recuento de popularidad | Relaciones entre elementos | Historial de interacciones | Clasificación personalizada |
Patrones | Popularidad | Similitud | Comportamiento | Comportamiento |
Dimensionalidad | 1000 | 10 000 | 100 000 | 10 000 |
Desempeño | El mejor | Mejor | Bueno | Mejor |
Cobertura | Baja | Mediana | Alta | Mediana |
Precisión | Buena | Mejor | La mejor | Mejor |
Nuevo entrenamiento | Semanal | Semanal | En línea Mensual |
Semanal |
Receta | Popularity-Count | SIMS | User-Personalization | Personalized-Ranking |
ClearScale desplegó cada uno de estos modelos en la API de REST unificada de Amazon Personalize, respaldada por Amazon API Gateway, para que los resultados del motor de recomendaciones de PBS estuvieran disponibles para las numerosas plataformas que respaldan la aplicación de streaming de la empresa. Los controles de acceso se basan en Amazon Cognito y AWS Identity and Access Management (IAM) para garantizar que los espectadores solo tengan acceso a sus datos.
La API de cada modelo consta de cuatro microservicios estrechamente conectados:
- API de recomendaciones en tiempo real: recibe la información del usuario y, en pocos segundos, le ofrece recomendaciones sobre qué programa excelente le atraerá y entretendrá a continuación.
- API de notificaciones personalizadas: hace lo mismo que el último microservicio, pero se utiliza junto con los canales de marketing fuera de la sesión, como los SMS, el correo electrónico o las notificaciones de inserción.
- API de bucle de comentarios: procesa los comentarios de los espectadores en forma de «pulgar arriba» o «pulgar abajo» para determinar su satisfacción con las recomendaciones y, por tanto, su corrección.
- API de administración de la configuración: permite a los administradores de PBS optimizar el motor de recomendaciones sobre la marcha sin tener que volver a desplegar ninguna pieza del sistema.
En ningún sentido el mundo es estático, como tampoco lo es el machine learning. A medida que el entorno evoluciona, los modelos entrenados ya no funcionan tan bien como después de desplegarse. En el 99% de los casos, los modelos se degradan con el tiempo, lo que disminuye el valor empresarial y la satisfacción del usuario final. Por ejemplo, el catálogo de elementos recibe nuevos títulos que nunca ve el modelo.
En el mejor de los casos, el modelo rechazaría recomendar el título, lo que introduciría sesgo. En el peor de los casos, el modelo proporcionaría predicciones incorrectas que darían lugar a decisiones deficientes. Para que el modelo no se estanque, debe volver a entrenarse continuamente con los datos más actualizados y cambiar de vez en cuando su forma para adaptarse a las nuevas reglas del juego.
Se añadió el modelo de supervisión personalizado sobre Amazon CloudWatch para medir una métrica de precisión que caracterizaba la capacidad del sistema para hacer buenas recomendaciones a los espectadores. No solo supervisa las métricas, sino que también toma decisiones automatizadas basadas en ellas. Por ejemplo, vuelve a entrenar el modelo cuando se acerca a un determinado umbral, de modo que el valor de la métrica nunca está por debajo de él, lo que mantiene satisfechos a los espectadores.
La prueba de concepto (PoC) de ClearScale para PBS arrojó una métrica de «Precisión a 10» de 0,0706. Esta cifra significa que, de cada 10 títulos recomendados, al menos uno estará favorecido por el usuario con un 71 % de probabilidad. Es preciso señalar que otros muchos sistemas de recomendaciones solo consiguen un resultado de 0,03.
Interfaz de usuario de demostración
La última fase del proyecto consistió en crear un prototipo de interfaz de usuario (IU) que permitiera a los espectadores de PBS personalizar sus cuentas de una forma sencilla y visualmente atractiva. ClearScale creó una aplicación web de demostración que reutilizaba la lógica empresarial existente y aprovechaba el nuevo motor de recomendaciones.
La aplicación de demostración tenía la tecnología TypeScript, ReactJS y Sass para la interfaz de usuario, así como para la administración de datos mediante Effector (en el cliente) y React-Query (integración de la API). A la vez que cumple su finalidad de prototipo funcional, refleja la singularidad de PBS con la aplicación de las directrices de estilo y marca. Gracias a la capacidad de respuesta, heredada de forma nativa de Material-UI, la aplicación de demostración funciona igualmente bien en ordenadores de sobremesa, tabletas y teléfonos.
La interfaz de usuario de demostración constaba de estos componentes:
- El «alojamiento web» ofrece la aplicación de demostración a los espectadores y la hace accesible independientemente de la plataforma.
- La «autenticación unificada» permite a los espectadores de PBS iniciar sesión con las credenciales existentes y poner automáticamente a disposición del SRE sus historiales de visualizaciones, sus preferencias y otros datos de personalización.
- La característica de «tarjeta de título» muestra detalles sobre un programa cuando una persona pasa el ratón sobre él en el catálogo, así como una calificación que indica si el título es relevante para el usuario.
- El «reproductor de contenidos» permite a los espectadores ver las recomendaciones en la aplicación de demostración.
- En las «mejores selecciones para {usuario}» se muestra una lista personalizada a los espectadores basada en la API de recomendaciones en tiempo real y en su modelo de ML de historial de interacciones.
- El «bucle de comentarios» permite a los espectadores juzgar la relevancia de las recomendaciones que proporciona el sistema y ver en tiempo real cómo afecta al contenido que se ofrece.
- En «los {K} mejores de la última semana» se muestran los títulos recientes y populares entre toda la audiencia de PBS, según el modelo de ML de recuento de popularidad.
Los beneficios
En la actualidad, PBS cuenta con una plataforma de MLOps eficaz y un sistema de recomendaciones sobre el que puede basarse en el futuro. La canalización de datos que ClearScale ha puesto en marcha limpia, valida y enriquece los datos sin procesar que PBS ha acumulado a lo largo de sus 50 años de historia. Los datos que fluyen hacia el sistema de recomendaciones de la organización son coherentes, precisos y completos, lo que los convierte en un origen fiable para los esfuerzos actuales y futuros con el impulso de la IA.
El nuevo motor de recomendaciones también ofrece a PBS la posibilidad de ofrecer experiencias más personalizadas a los espectadores a partir de un sinfín de factores. Los cuatro modelos que ha creado ClearScale incorporan variables como la popularidad general, las relaciones entre los títulos y el comportamiento de los usuarios para obtener recomendaciones que tengan muchas probabilidades de complacer a los espectadores.
Por último, la aplicación web de demostración que ClearScale ha desarrollado para PBS muestra la potencia del nuevo motor de recomendaciones en una interfaz fácil de usar. Ofrece a los espectadores la oportunidad de encontrar rápidamente los títulos que les gustan y de compartir comentarios sobre recomendaciones específicas, lo que permite a PBS perfeccionar las experiencias de los espectadores.
En un momento en el que las principales empresas de radiodifusión compiten por la audiencia en numerosas aplicaciones de streaming, ClearScale ha ayudado a PBS a crear su propia solución impulsada por ML que se basa en sólidas herramientas nativas en la nube de AWS. PBS cuenta ahora con una plataforma de MLOps escalable que puede utilizar para ofrecer mejores experiencias a millones de espectadores cada día.
Este artículo fue traducido del Blog de AWS en Inglés
ClearScale: noticias destacadas de los socios de AWS
ClearScale es un socio consultor de nivel premier de AWS que ayuda a los clientes a diseñar, crear, desplegar y administrar arquitecturas complejas en la nube a tiempo y según el presupuesto.