Blog de Amazon Web Services (AWS)
El viaje de Unicred a través de Amazon SageMaker para hacer predicciones empresariales
Por Amanda Quinto, arquitecta de soluciones en AWS,
Rafael Silva, propietario de producto en Unicred Brasil
Hugo Wannmacher, especialista en BI en Unicred Brasil y
Rodney Junior, científico de datos en Zallpy Digital.
Con más de 30 años en el mercado brasileño de cooperativas de ahorro y crédito, Unicred fue fundada con el objetivo de administrar los recursos del Sistema Unimed, la confederación nacional de cooperativas médicas en Brasil. Hoy el sistema Unicred está presente en más del 60% de los estados brasileños, con más de 220 asociados activos y cerca de 280 unidades de negocio.
Resumen
El porcentaje de clientes que dejan de usar los productos o servicios de una empresa durante un cierto período de tiempo se denomina Churn. Esto se ha convertido en un problema importante y es uno de los retos clave a los que se enfrentan muchas empresas de todo el mundo. Ha ido aumentando considerablemente con el tiempo en el sector financiero, impulsado por el ascenso de los bancos digitales. Según McKinsey, entre 2013 y 2018, las tasas de churn crecieron un 13% en todo el mundo en la industria.
El Desafío
Con el fin de encontrar respuestas a través de los datos, Unicred buscó comprender el perfil de las cooperativas afiliadas que se desvinculan. Logrando predecir la curva de churn, para luego ofrecer servicios que mejor satisfagan sus necesidades para minimizar cancelaciones.
En este viaje, Unicred también logró determinar el sesgo de compra de sus clientes, de diferentes servicios como líneas de crédito personales, de vehículos, o seguros en general a través del uso de Machine Learning. El objetivo fue utilizar algoritmos ML para personalizar la oferta de productos que se adhieran mejor a las necesidades del cliente y aumenten las ventas.
La solución
Mediante el uso de datos históricos para realizar predicciones usando Machine Learning, Unicred utilizó herramientas de AWS para crear una infraestructura escalable y resistente.
Arquitectura
Para el entrenamiento de modelos se creó la siguiente arquitectura:
A continuación se muestra una descripción de cómo funciona cada uno de los servicios de la solución integral, desde las fuentes de datos hasta el consumo de modelos y análisis.
- En el primer paso de la solución, Pentaho es responsable de agregar los datos que Unicred tiene en la base de datos PostgreSQL y de enviarlos a un bucket de Amazon S3 dentro de AWS.
- En el segundo paso, se utilizan AWS Step Functions para organizar el flujo de trabajo «Load Product Info», que utiliza AWS Lambda para obtener datos de productos y los utiliza como variables para crear todos los demás recursos, como los nombres de trabajo de AWS Glue y los trabajos de Amazon Sagemaker. Este flujo de trabajo finaliza utilizando AWS Glue Jobs para estandarizar y borrar los datos y, al final, inicia otro flujo de trabajo «Train models» para formar las plantillas;
- En el flujo de trabajo Modelos de tren, SageMaker Jobs entrena 3 modelos diferentes. Después del entrenamiento, se utiliza una función Lambda para seleccionar el modelo mejor entrenado y compararlo con el modelo actual en producción mediante la búsqueda en el repositorio de plantillas MLFlow;
- Si hay que elegir una nueva plantilla, el flujo de trabajo aplica una nueva versión a Sagemaker;
- En el flujo de trabajo «Generar resultados», la plantilla aplicada se utiliza en modo batch para generar todas las previsiones del modelo y, a continuación, carga estos resultados en tres orígenes diferentes: Amazon S3, Dynamo DB y la base de datos PostgreSQL utilizada como DW en centros de datos Unicred
- En el paso final, el usuario consume la información a través de la API que utilizan Sensedia y AWS Lambda almacenando los resultados en DynamoDB. También utiliza PowerBI para visualizar datos cruzados utilizando un enfoque multidimensional.
ML Flow
ML Flow es una plataforma de código abierto para administrar el ciclo de vida de ML, que incluye experimentación, reproducibilidad, implementación y un registro central de modelos. Durante el desarrollo del proyecto, se hizo necesario utilizar esta herramienta, y para ello hemos ensamblado la siguiente arquitectura para que ML Flow funcione de manera escalable, resistente y tolerante a fallos.
Voz del cliente
En palabras de Rafael Silva, propietario del producto de BI and Analytics de Unicred, «Antes de reconstruir el proyecto en AWS, estábamos extrayendo, limpiando y procesando datos y modelos dentro de nuestro data center, en un pequeño grupo de máquinas virtuales. Sin automatizaciones, sin posibilidad de reentrenamiento bajo demanda. Ahora, con MLFlow con alta disponibilidad y resiliencia, contenedores, copias de seguridad automatizadas y sin servidor, ganamos tiempo para crear nuevas características y desarrollar nuevos scripts de aprendizaje automático, en lugar de pensar en el SO y la disponibilidad de recursos.»
Conclusión
Hasta la fecha, los modelos han mejorado la propensión del cliente a comprar productos financieros en un 9,6% (44% proviene de nuevos clientes). Considerando una cooperativa afiliada, el modelo ayudó a actuar proactivamente en la predicción del churn y una reducción del 30% en la cancelación de cooperativas.
Sobre los autores
Amanda Quinto es arquitecta de soluciones de AWS en el equipo del sector público con un enfoque en la organización sin fines de lucro. Amanda ha trabajado en varios proyectos ayudando a los equipos de desarrollo y soporte a diseñar sistemas resilientes y escalables. Graduada de FATEC-SP, es una devops, entusiasta del aprendizaje automático y apasionada por el kombis.
Rafael Silva es propietario de producto de Unicred do Brasil, trabaja desde hace unos 10 años en Business Intelligence con experiencias previas en el sector financiero y multimedia. Licenciado en Ciencias de la Computación y MBA en Tecnología.
Hugo Stobienia Wannmacher es especialista en inteligencia empresarial y datos de Unicred, ha estado en el campo durante más de 20 años con un enfoque en datos y análisis avanzados. Graduado en Gestión de Tecnologías de la Información.
Rodney Sales Nogueira Júnior es científico de datos en Zallpy Digital, trabajando con el equipo de inteligencia empresarial de Unicred. Máster en Informática, con más de 8 años de experiencia en el sector de las tecnologías de la información.