Logotipo de Careem

Careem mejora la prevención del fraude con machine learning de AWS

2021

Careem, con sede en Dubái, se convirtió en el primer unicornio de Oriente Medio cuando Uber la adquirió por 3100 millones de dólares en 2019. Como pionera de la economía de transporte de la región, Careem ahora amplía sus servicios para incluir el transporte masivo, la entrega y los pagos como una superaplicación de uso diario.

Sin embargo, su tamaño y popularidad (tiene alrededor de 50 millones de cuentas de clientes) también la han convertido en un objetivo principal para los estafadores que buscan constantemente nuevas lagunas para explotar y diferentes formas de secuestrar cuentas genuinas.

Careem necesitaba una forma de detectar y detener las pérdidas derivadas del fraude que estaban dañando tanto sus ingresos como la reputación de su marca.

Recurrió a Amazon Web Services (AWS) y ahora contraataca mediante el análisis y el machine learning para identificar y bloquear automáticamente a los estafadores antes de que se pueda cometer un delito.

Entrega de Careem
kr_quotemark

“Amazon Neptune está completamente administrado, lo que supone una gran ventaja para nosotros en términos de la cantidad de personas que tendríamos que tener trabajando en este proyecto y el costo potencial de la infraestructura y el mantenimiento”.

Kevin O’Brien
Senior data scientist, Careem

Cuando los estafadores atacan

Careem detecta una amplia variedad de tipos diferentes de fraude y los delincuentes siempre encuentran nuevas lagunas para eludir las medidas específicas que pone en marcha para combatir los patrones de fraude existentes detectados.

En el pasado, combatir estos diferentes tipos de fraude era un juego interminable del gato y el ratón. Careem solía tener que crear reglas o modelos de machine learning para cada tipo específico de fraude. Sin embargo, esto era problemático en dos niveles.

En primer lugar, solo permitía a Careem identificar y bloquear una cuenta después de que se hubiera cometido y detectado el fraude; el dinero ya se había perdido.

En segundo lugar, los estafadores podían detectar rápidamente cuándo Careem había descubierto cómo detectar ese tipo de fraude y simplemente seguían adelante y buscaban una nueva laguna para aprovechar.

Una forma más inteligente

Estaba claro que Careem necesitaba una forma más inteligente y rápida de detectar cuentas fraudulentas y detener el fraude antes de que se cometiera.

“En lugar de crear continuamente herramientas muy específicas para detectar determinados casos de uso de fraude, queríamos crear un proyecto que fuera casi un mecanismo de detección general para todos los usuarios, independientemente del tipo de laguna que encontraran o del tipo de ataque que intentaran realizar”, afirma Kevin O’Brien, científico de datos sénior de Careem.

Careem eligió una base de datos de gráficos como forma de detectar patrones potencialmente fraudulentos en tiempo real en la actividad de los usuarios y las cuentas, y evaluó a varios de los principales proveedores del mercado. 

Eligió AWS y las capacidades automatizadas de análisis y supervisión en tiempo real de Amazon Neptune, en parte porque es un servicio administrado. 

“Amazon Neptune está completamente administrado, lo que supone una gran ventaja para nosotros en términos de la cantidad de personas que necesitaríamos tener trabajando en este proyecto y el costo potencial de la infraestructura y el mantenimiento”, afirma O’Brien. “En vez de eso, AWS lo administra todo en su totalidad”. 

Careem ya utilizaba AWS para todas sus operaciones de almacenamiento de datos y computación en la nube, por lo que optó por permanecer en el mismo entorno para su proyecto de prevención del fraude. 

Careem también prefería el lenguaje de consulta Gremlin, que admite Amazon Neptune, en lugar de los lenguajes de consulta como Cypher, que utilizan otros proveedores de bases de datos de gráficos. Gremlin permite a los desarrolladores escribir consultas en una variedad de lenguajes de programación, incluidos Groovy, Java y Python.

Detección de patrones en función de la identidad

Para mejorar su capacidad de detección de fraudes con Amazon Neptune, Careem comenzó a centrarse en la identidad de los usuarios, además de en sus esfuerzos por combatir tipos específicos de fraude a medida que se presentaban.

La base de datos de gráficos de Amazon Neptune permite a Careem establecer conexiones entre diferentes usuarios y puntos de datos e identificar patrones que podrían indicar una actividad fraudulenta.

La primera versión del proyecto de prevención del fraude se puso en marcha en octubre de 2020 utilizando datos históricos de usuarios que se remontan a 2012 provenientes de fuentes internas de Careem, como su almacenamiento de datos. Estos datos se extraen, transforman y, a continuación, se formatean en archivos CSV en Amazon Simple Storage Service (Amazon S3) antes de cargarlos en Amazon Neptune. Esos datos históricos se agregan en tiempo real a medida que los usuarios realizan nuevas acciones, como usar un nuevo dispositivo para iniciar sesión, agregar una nueva tarjeta de crédito, cambiar un número de teléfono o hacer un cambio en el perfil. En promedio, los datos se agregan o actualizan en el gráfico de Amazon Neptune más de 100 000 veces al día.

Esto crea un clúster de datos conectados a cada usuario, que se analiza mediante un motor de análisis algorítmico simple, creado por Careem con Python, que se encuentra en la parte superior de Amazon Neptune. 

Cuando una cuenta se marca como potencialmente fraudulenta, se bloquea automáticamente si los datos muestran que históricamente no es de confianza o se marca para su revisión manual si se trata de una cuenta confiable o de alto valor, como la de un cliente corporativo.

Reducción de las pérdidas con una precisión mejorada

Careem ha bloqueado decenas de miles de cuentas de usuario fraudulentas desde la implementación de la primera fase del proyecto en octubre de 2020, y los resultados son impresionantes: alrededor del 90 por ciento de los usuarios que el sistema bloqueó automáticamente fueron decisiones correctas. Esto significa que Careem bloquea estas cuentas falsas antes de que se cometa un fraude, lo que ayuda a reducir las pérdidas.

Tras el éxito de esta primera fase del proyecto, Careem ahora trabaja con AWS en una versión actualizada que mejorará aún más la precisión mediante el uso de la capacidad de machine learning de Amazon Neptune ML.

Al utilizar alrededor de 10 veces más datos históricos, Careem podrá aplicar el aprendizaje profundo avanzado en lugar de un enfoque simple basado en reglas, y entrenar el sistema para que pueda aprender a identificar el aspecto de un usuario fraudulento en la base de datos de gráficos. Esto permitirá mejorar de forma significativa la recuperación, ya que el sistema podrá detectar correctamente más cuentas fraudulentas de entre todos los usuarios analizados por el sistema, al tiempo que mejorará la precisión de la predicción del fraude más allá del 90 por ciento.

“Estamos muy seguros de que esta segunda versión de nuestra solución mejorará nuestras capacidades actuales de prevención del fraude”, afirma O’Brien. “Y este es otro gran motivo por el que elegimos Amazon Neptune”.


Acerca de Careem

Careem, con sede en Dubái, es pionera en la economía de transporte y ahora amplía sus servicios para incluir el transporte masivo, la entrega y los pagos. Fundada en 2012, Careem opera en más de 100 ciudades de 14 países de Oriente Medio, África y el sur de Asia. Uber la adquirió por 3100 millones de dólares en 2019.

Beneficios de AWS

  • Seguridad y conformidad
  • Agilidad y rendimiento
  • Disponibilidad
  • Innovación

Servicios de AWS utilizados

Amazon Neptune

Amazon Neptune es un servicio de base de datos de grafos rápido, fiable y completamente administrado que permite crear y ejecutar de manera sencilla aplicaciones que funcionan con conjuntos de datos altamente conectados.

Más información »

Amazon Redshift

Con Redshift, puede consultar y combinar exabytes de datos estructurados y semiestructurados en su almacenamiento de datos, bases de datos operativas y lagos de datos mediante el uso de SQL estándar.

Más información »

Amazon S3

Amazon Simple Storage Service (Amazon S3) es un servicio de almacenamiento de objetos que ofrece escalabilidad, disponibilidad de datos, seguridad y rendimiento líderes en el sector.

Más información »

Amazon SageMaker

Amazon SageMaker ayuda a los científicos de datos y a los desarrolladores a preparar, crear, entrenar e implementar con rapidez modelos de machine learning (ML) de alta calidad al poner a disposición un amplio conjunto de capacidades especialmente creadas para ML.

Más información »


Comenzar

Obtenga más información sobre Amazon Neptune. Una base de datos de gráficos rápida y confiable desarrollada para la nube.