OneFootball creó un lago de datos en cuestión días con AWS Lake Formation para brindar su servicio a 70 millones de seguidores

2020

Desde sus humildes comienzos como una de las 1000 primeras aplicaciones de la App Store de Apple, OneFootball ha crecido hasta convertirse en una de las plataformas multimedia digitales más populares del mundo para los aficionados al fútbol. La compañía llega a 70 millones de seguidores al mes con noticias, resultados, estadísticas, transmisiones en vivo y momentos destacados de partidos de fútbol de todo el mundo. Para atender con éxito a esos usuarios, los distintos equipos de OneFootball necesitaban acceder fácilmente a sus bases de datos de backend para tomar decisiones empresariales informadas y crear y probar modelos de machine learning con el objetivo de mejorar la experiencia del cliente.

Sin embargo, para cumplir con la solicitud de información sobre datos de los equipos, el reducido equipo de análisis de la empresa, compuesto por seis personas, tuvo que ejecutar y administrar varias cargas de trabajo de extracción, transformación y carga (ETL) para silos de datos independientes en toda la empresa. Con ese proceso complejo y lento, la tarea de extraer datos y convertirlos en información oportuna y procesable para los equipos de ventas y marketing, los analistas de negocios, los editores de noticias y los científicos de datos llevó de 4 a 6 semanas. Para utilizar mejor los datos en beneficio de la empresa y de los aficionados al fútbol por igual, OneFootball buscó una solución más ágil en Amazon Web Services (AWS).

La empresa utilizó AWS Lake Formation, un servicio lanzado en 2019, para configurar con facilidad un lago de datos seguro basado en la nube en cuestión de días. Desde que integró los datos de sus bases de datos de backend en ese lago de datos, OneFootball ha simplificado la ingestión de datos en su lago de datos centralizado y ha eliminado las cargas de trabajo de ETL heredadas. Ahora, la tarea de recibir una solicitud, extraer datos y entregar información lleva menos de dos días. La mayor disponibilidad de datos y los análisis de autoservicio habilitados han proporcionado a los equipos internos y a los usuarios finales información más completa en menos tiempo. La nueva infraestructura también ha reducido el trabajo técnico y ha optimizado la productividad del personal para una empresa de 220 personas repartidas en cinco países,
lo que le permite centrarse en la actividad principal.

kr_quotemark

“AWS Lake Formation nos permitió usar Amazon S3 como capa de almacenamiento sobre una capa de procesamiento e integrarlo sin problemas en nuestra infraestructura existente”.

Stephan Durry
Director de Datos e Información de OneFootball

Alimentar el apetito mundial por el fútbol

Fundada en 2008, OneFootball es una plataforma multimedia para amantes del fútbol. Cada mes, envía diariamente a sus usuarios más de 180 000 artículos de 3500 proveedores de contenido activos (creadores de contenido independientes, clubes, federaciones, jugadores y emisoras) a sus usuarios a través de su sitio web y aplicaciones nativas para iPhone y Android, que funcionan en 12 idiomas. La empresa utilizó AWS por primera vez en 2014 para mejorar la escalabilidad, la fiabilidad y la eficiencia de sus cargas de trabajo, a medida que su base de clientes crecía de forma considerable. A lo largo de los años, OneFootball ha hecho la transición de toda su plataforma a AWS.

Para que los datos de backend estén más disponibles para las partes interesadas, OneFootball decidió crear un lago de datos. La empresa ya utilizaba Amazon Redshift, el servicio de almacenamiento de datos en la nube más popular y rápido
disponible. Sin embargo, para ponerse en marcha con rapidez, decidió crear un sistema de extracción de datos propio, mediante los marcos existentes. Todos los datos de backend expuestos a través de las API se extraían mediante scripts que analizaban los datos y los enviaban a Amazon Redshift todas las noches. El equipo de OneFootball decidió gestionar los marcos de ETL de forma individual mediante diferentes esquemas. En última instancia, esto aumentó la deuda técnica y el volumen de tareas de mantenimiento que el equipo tenía que gestionar. “Fue un desastre”, afirma Stephan Durry, director de Datos e Información de
OneFootball. “Las alertas y la supervisión se administraban de forma diferente para cada servicio: a veces las extracciones fallaban sin que nos diéramos cuenta de inmediato, lo que provocaba que los usuarios de nuestra empresa perdieran datos”. Fue entonces cuando el equipo recurrió a AWS Lake Formation.

“No se trata solo de extraer los datos”, explica Rodrigo Del Monte, ingeniero de datos de OneFootball. “Es necesario comprimir y particionar los datos, y ahí es donde destaca AWS Lake Formation”. Gracias a los esquemas prefabricados de AWS Lake Formation, OneFootball pudo poner los datos en el estado adecuado para que Amazon Redshift los consumiera con una sobrecarga muy baja. A continuación, las distintas partes interesadas de la empresa podrían recopilar la información que necesitan sobre la marcha y seleccionar cuidadosamente las tablas que deseaban replicar en el lago de datos, lo que hacía que los datos fueran más accesibles en toda la empresa y dar a los ingenieros de datos de OneFootball más tiempo para innovar.

Integración perfecta para el análisis de autoservicio mediante un lago de datos en AWS

El lago de datos de OneFootball incluye todos los conjuntos de bases de datos de backend necesarios para realizar análisis en Amazon Simple Storage Service (Amazon S3), un servicio de almacenamiento de objetos que ofrece escalabilidad, disponibilidad de datos, seguridad y rendimiento líderes del sector. Todos los días, OneFootball utiliza AWS Lake Formation para extraer datos del lago de datos y llevarlos al sitio del equipo de análisis de datos. Los datos se cargan en Amazon S3 y, a continuación, Amazon Redshift puede ejecutar consultas en petabytes de datos almacenados en Amazon S3 mediante Amazon Redshift Spectrum sin tener que cargar ni transformar ningún dato. “AWS Lake Formation nos permitió desde el primer momento usar Amazon S3 como capa de almacenamiento sobre una capa de computación e integrarla sin problemas en nuestra infraestructura existente”, afirma Durry. “Construir algo así por nuestra cuenta nos habría costado tiempo y muchos dolores de cabeza. Si el equipo necesita incorporar nuevos datos, en lugar de crear un proyecto complejo, configuramos un esquema y programamos esos datos para que estén disponibles diariamente en el lago de datos”.

En la siguiente fase, OneFootball utiliza un sistema de extracción, carga y transformación (ELT) para actualizar los datos de análisis a diario o para crear conjuntos de datos que se utilizan para crear modelos de machine learning. Como interfaz para sus usuarios empresariales, el equipo mantiene Metabase, una herramienta de información empresarial de código abierto que permite a los usuarios consumir todos los datos almacenados en Amazon S3 por AWS Lake Formation.

Desde la implementación de AWS Lake Formation, OneFootball ha reducido el tiempo de carga de datos de las bases de datos operativas al lago de datos centralizado de 3 a 5 días. La cobertura de los servicios de backend relevantes como parte de su lago de datos pasó del 30 al 60 %. En última instancia, esto ayudó al equipo a registrar un crecimiento sustancial en el número de usuarios de análisis activos semanales (el indicador clave de rendimiento interno del equipo), lo que aumentó el uso de la plataforma de análisis en un 40 %.

La capacidad de análisis de autoservicio permite a las partes interesadas internas utilizar los análisis bajo demanda e iterar y seleccionar conjuntos de datos con mayor rapidez para generar informes y medir el rendimiento. Esto aumentó de manera considerable la cantidad de tiempo que los analistas de datos podían dedicar al análisis exploratorio y a la extracción de información en lugar de a ejecutar consultas de análisis; el tiempo necesario para solicitar y recibir información sobre los datos se redujo de una media de 4 a 6 semanas a un máximo de 2 días. “En última instancia, somos un pequeño equipo de datos que presta servicios a más de 220 personas en OneFootball, pero ahora podemos dedicar más tiempo a entender los problemas empresariales que al mantenimiento de diferentes tipos de extracciones de bases de datos”, afirma Durry. “Ver a más y más personas de toda la organización utilizar análisis a diario es un gran logro. Tener todos los orígenes de datos relevantes integrados de manera fiable era un requisito previo”.

Enriquecer aún más el análisis de datos con más servicios de AWS

OneFootball planea impulsar su sistema de análisis de datos mediante Amazon Kinesis Data Streams, un servicio de secuencias de datos en tiempo real duradero y escalable. “Con Amazon Kinesis Data Streams, podemos cargar datos en un lago de datos para analistas y modelos de machine learning, o hacer que las aplicaciones de backend consuman datos casi en tiempo real, en lugar de esperar a que se ejecuten las tareas de ETL diarias”, explica Del Monte. “Y el tiempo de comercialización es mucho más rápido”.

Actualmente, OneFootball está trabajando en la transmisión de eventos a su infraestructura de lago de datos para poder ofrecer datos casi en tiempo real. Amazon Kinesis Data Streams carga los datos en Amazon
Elasticsearch Service
, para que los usuarios finales puedan encontrar y ver la información que les interesa casi de inmediato.

Con AWS Lake Formation, OneFootball creó un lago de datos y un sistema de análisis de datos que ha demostrado ser un gran avance para la empresa. Los equipos pueden utilizar el análisis autoservicio para obtener con rapidez información sobre los datos y, luego, centrarse en convertir esa información en decisiones empresariales inteligentes. “Ahora todo está bien administrado en términos del número de consultas que se ejecutan en nuestro lago de datos”, afirma Durry. “Al abrir el lago de datos y el almacén de datos, ponemos el destino en manos de las personas”.


Acerca de OneFootball

OneFootball es la plataforma de medios digitales más popular del mundo para los amantes del fútbol, y llega a 85 millones de seguidores al mes en 15 idiomas con noticias, transmisiones en vivo, resultados, estadísticas y momentos destacados de más de 200 ligas y competiciones de todo el mundo. Tras la adquisición de Dugout en diciembre de 2020, OneFootball dio la bienvenida al Arsenal, al Barcelona, al Bayern de Múnich, al Chelsea, a la Juventus, al Liverpool, al Manchester City, al París Saint-Germain, al Real Madrid y al Olympique de Marsella como nuevos accionistas.

Beneficios de AWS

  • Aumento de la cobertura de datos de las bases de datos de backend pertinentes del 30 al 60 %
  • Aumento del uso de la plataforma de análisis en un 40 % para los usuarios finales activos a diario
  • Reducción del tiempo necesario para solicitar y recibir datos de 4 a 6 semanas a dos días
  • Reducción del tiempo de espera para cargar los datos de las bases de datos operativas en el lago de datos de 3 a 5 días
  • Configuración de un lago de datos en días en lugar de meses
  • Posibilidad de que el personal itere y seleccione conjuntos de datos con mayor rapidez para el trabajo exploratorio

Servicios de AWS utilizados

AWS Lake Formation

AWS Lake Formation es un servicio que facilita la configuración de un lago de datos seguro en cuestión de días. Crear un lago de datos con Lake Formation es tan simple como definir el origen de los datos y qué políticas de seguridad y acceso desea aplicar.

Más información »

 

Amazon Redshift

Amazon Redshift es el almacenamiento de datos en la nube más ágil del mundo y su rapidez aumenta año tras año. Redshift respalda cargas de trabajo de análisis de empresas emergentes, compañías pertenecientes a la lista Fortune 500 y todas las que se encuentran en el medio.

Más información »

Amazon Simple Storage Service (Amazon S3)

Amazon Simple Storage Service (Amazon S3) es un servicio de almacenamiento de objetos que ofrece escalabilidad, disponibilidad de datos, seguridad y rendimiento líderes en el sector. Amazon S3 está diseñado para ofrecer una durabilidad del 99,999999999 % (11 nueves) y almacena datos de millones de aplicaciones para empresas de todo el mundo.

Más información »

Amazon Kinesis Data Streams (KDS)

Amazon Kinesis Data Streams (KDS) es un servicio de streaming de datos en tiempo real con un alto nivel de escalabilidad y durabilidad. KDS puede recopilar continuamente gigabytes de datos por segundo procedentes de cientos de miles de fuentes. Los datos recopilados se encuentran disponibles en milisegundos para permitir los casos de uso de análisis en tiempo real, como paneles en tiempo real, detección de anomalías en tiempo real y precios dinámicos, entre otros.

Más información »


Introducción

Cada día crece el número de empresas de todos los tamaños y sectores que consiguen transformar sus negocios gracias a AWS. Contacte con nuestros expertos e inicie hoy mismo su proceso de traspaso a la nube de AWS.