Careem améliore la prévention des fraudes grâce au machine learning d’AWS
2021
Careem, basée à Dubaï, est devenue la première licorne du Moyen-Orient lorsqu’elle a été rachetée par Uber pour 3,1 milliards de dollars en 2019. Pionnière de l’économie du transport en voiture dans la région, Careem étend désormais ses services aux transports en commun, à la livraison et aux paiements sous la forme d’une super application quotidienne.
Mais sa taille et sa popularité (elle compte environ 50 millions de comptes clients) en ont également fait une cible de choix pour les fraudeurs à la recherche constante de nouvelles failles à exploiter et de différentes manières de pirater de véritables comptes.
Careem avait besoin d’un moyen de détecter et de stopper les pertes liées à la fraude qui nuisait à la fois à ses revenus et à la réputation de sa marque.
Elle s’est tournée vers Amazon Web Services (AWS) et riposte désormais en utilisant des outils d’analyse et de machine learning pour identifier et bloquer automatiquement les fraudeurs avant qu’un quelconque crime ne soit commis.
Amazon Neptune est entièrement géré, ce qui représente un avantage considérable pour nous en matière de nombre de personnes devant travailler sur ce projet et de coûts potentiels liés à l’infrastructure et à la maintenance. »
Kevin O’Brien
Senior data scientist, Careem
Quand les fraudeurs attaquent
Careem constate une grande variété de types de fraude et les criminels trouvent toujours de nouvelles failles pour contourner les mesures spécifiques mises en place et lutter contre les modèles de fraude existants détectés.
Dans le passé, s’attaquer à ces différents types de fraudes était un jeu interminable du chat et de la souris. Careem devait auparavant créer des règles ou des modèles de machine learning pour chaque type de fraude spécifique. Mais cela posait problème à deux niveaux.
Tout d’abord, cela n’a permis à Careem d’identifier et de bloquer un compte qu’une fois la fraude commise et détectée, l’argent ayant déjà été perdu.
Ensuite, les fraudeurs ont pu rapidement repérer le moment où Careem avait découvert comment détecter ce type de fraude et ils ont simplement passé à autre chose et ont découvert une nouvelle faille à exploiter.
Une méthode plus intelligente
Il était clair que Careem avait besoin d’un moyen plus intelligent et plus rapide de détecter les comptes frauduleux et de mettre fin à la fraude avant qu’elle ne soit commise.
« Au lieu de créer en permanence des outils très spécifiques pour détecter des cas de fraude très spécifiques, nous voulions créer un projet qui soit presque un mécanisme de détection global couvrant tous les utilisateurs, quel que soit le type de faille qu’ils ont découvert ou le type d’attaque qu’ils tentent de lancer », explique Kevin O’Brien, senior data scientist chez Careem.
Careem a opté pour une base de données orientée graphe afin de détecter les modèles potentiellement frauduleux en temps réel en fonction de l’activité des utilisateurs et des comptes, et a évalué plusieurs des principaux fournisseurs du marché.
Elle a choisi AWS et les fonctionnalités automatisées d’analyse et de surveillance en temps réel d’Amazon Neptune, en partie parce qu’il s’agit d’un service géré.
« Amazon Neptune est entièrement géré, ce qui représente un avantage considérable pour nous en termes de nombre de personnes devant travailler sur ce projet et de coûts potentiels liés à l’infrastructure et à la maintenance », déclare O’Brien. « Au contraire, tout cela est entièrement géré par AWS. »
Careem utilisait déjà AWS pour toutes ses opérations de cloud computing et d’entrepôt de données. Elle a donc choisi de rester dans le même environnement pour son projet de prévention des fraudes.
Careem a également préféré le langage d’interrogation Gremlin, pris en charge par Amazon Neptune, aux langages d’interrogation tels que Cypher, utilisés par d’autres fournisseurs de bases de données graphiques. Gremlin permet aux développeurs d’écrire des requêtes dans différents langages de programmation, notamment Groovy, Java et Python.
Détecter des modèles en mettant l’accent sur l’identité
Pour améliorer sa capacité de détection des fraudes à l’aide d’Amazon Neptune, Careem a commencé à se concentrer sur l’identité des utilisateurs en plus de ses efforts pour lutter contre des types spécifiques de fraude dès qu’ils se produisaient.
La base de données graphique Amazon Neptune permet à Careem d’établir des liens entre différents utilisateurs et points de données et d’identifier des modèles susceptibles d’indiquer une activité frauduleuse.
La première version du projet de prévention des fraudes a été mise en service en octobre 2020 en utilisant des données historiques sur les utilisateurs remontant à 2012 provenant de sources internes de Careem, telles que son entrepôt de données. Ces données sont extraites, transformées puis mises en forme dans des fichiers CSV sur Amazon Simple Storage Service (Amazon S3) avant d’être chargées sur Amazon Neptune. Ces données historiques sont ajoutées en temps réel lorsque les utilisateurs effectuent de nouvelles actions, telles que l’utilisation d’un nouvel appareil pour se connecter, l’ajout d’une nouvelle carte de crédit, la modification d’un numéro de téléphone ou la modification de profil. En moyenne, les données sont ajoutées ou mises à jour dans le graphe Amazon Neptune plus de 100 000 fois par jour.
Cela crée un cluster de données connecté à chaque utilisateur, qui est analysé à l’aide d’un moteur d’analyse algorithmique simple, créé par Careem à l’aide de Python, qui se trouve au-dessus d’Amazon Neptune.
Lorsqu’un compte est signalé comme potentiellement frauduleux, il est soit automatiquement bloqué si les données montrent qu’il n’est pas fiable par le passé, soit signalé pour examen manuel s’il s’agit d’un compte fiable ou de grande valeur, comme celui d’un client professionnel.
Réduire les pertes grâce à une précision accrue
Careem a bloqué des dizaines de milliers de comptes utilisateurs frauduleux depuis la mise en œuvre de la première phase du projet en octobre 2020, et les résultats sont impressionnants : environ 90 % des utilisateurs automatiquement bloqués par le système constituaient des décisions correctes. Cela signifie que Careem bloque ces faux comptes avant qu’une fraude ne soit commise, ce qui contribue à réduire les pertes.
Après le succès de cette première phase du projet, Careem travaille actuellement avec AWS sur une version mise à jour qui améliorera encore la précision en utilisant la fonctionnalité de machine learning d’Amazon Neptune ML.
En utilisant environ 10 fois plus de données historiques, Careem sera en mesure d’appliquer un deep learning avancé au lieu d’une simple approche basée sur des règles, et d’entraîner le système afin qu’il apprenne à identifier à quoi ressemble un utilisateur frauduleux sur la base de données graphique. Cela permettra d’améliorer considérablement le rappel, grâce auquel le système sera capable de détecter correctement un plus grand nombre de comptes frauduleux parmi tous les utilisateurs analysés par le système, tout en améliorant la précision des prévisions de fraude bien au-delà de 90 %.
« Nous sommes convaincus que cette deuxième version de notre solution améliorera nos capacités actuelles de prévention des fraudes », déclare O’Brien. « Et c’est une autre bonne raison pour laquelle nous avons choisi Amazon Neptune. »
À propos de Careem
Careem, basée à Dubaï, est une pionnière de l’économie du transport en voiture et étend actuellement ses services aux transports en commun, à la livraison et aux paiements. Fondée en 2012, Careem est présente dans plus de 100 villes de 14 pays du Moyen-Orient, d’Afrique et d’Asie du Sud. Elle a été rachetée par Uber pour 3,1 milliards de dollars en 2019.
Avantages d’AWS
- Sécurité et conformité
- Agilité et performance
- Disponibilité
- Innovation
Services AWS utilisés
Amazon Neptune
Amazon Neptune est un service de base de données orientée graphe fiable, rapide et entièrement géré qui facilite la création et l'exécution d'applications utilisant des jeux de données hautement connectés.
Amazon Redshift
Grâce à Redshift, vous pouvez interroger et combiner des exaoctets de données structurées et semi-structurées dans votre entrepôt de données, votre base de données opérationnelle et votre lac de données à l’aide du SQL standard.
Amazon S3
Amazon Simple Storage Service (Amazon S3) est un service de stockage d'objets offrant une capacité de mise à l'échelle, une disponibilité des données, une sécurité et des performances de pointe.
Amazon SageMaker
Amazon SageMaker aide les scientifiques des données et les développeurs à préparer, créer, entraîner et déployer rapidement des modèles d'apprentissage automatique (ML) de haute qualité en rassemblant un large éventail de fonctionnalités conçues spécialement pour l'apprentissage automatique.
Démarrer
En savoir plus sur Amazon Neptune. Une base de données orientée graphe fiable et rapide, conçue pour le cloud.