leboncoin est la première plateforme généraliste de petites annonces en France. Plus d’un français sur trois a déjà utilisé son site fréquenté par 25,5 millions de visiteurs uniques par mois. Chaque jour, 800 000 à 1 million d'annonces sont déposées sur leboncoin.fr qui compte plus de 26 millions d'annonces en stock. Via sa régie publicitaire, une des dix premières en France, leboncoin propose aussi des services pour tous les annonceurs professionnels locaux et nationaux qui communiquent sur son site. Avec 400 employés et un chiffre d'affaires de 180 millions d’euros en 2015, leboncoin fait figure de site phare de l’économie collaborative et de la consommation raisonnée.
leboncoin stocke et traite plus de 100 téraoctets de données issues de l'activité sur son site. Pour exploiter ces données, son équipe travaillait par le passé avec des outils traditionnels de Business Intelligence (BI) aux capacités d'analyse limitées. "La BI nous permettait d'analyser l'activité avec les chiffres des visites et des ventes réalisées sur deux semaines tout au plus. Sur ce lapse de temps, les conclusions n'étaient pas représentatives et ne permettaient pas d'anticipation" explique Aissa Belaid, directeur de l'activité data leboncoin. Pour amener l'analyse des données au niveau de la prédiction, l'équipe devait s'assurer d'avoir une infrastructure capable de gérer des calculs massifs.
Or son infrastructure hébergée dans deux data centers en colocation n'offrait pas la souplesse requise pour une approche big data. Au plan du stockage, tout d'abord, compte-tenu d'un volume de données dont la croissance exponentielle reste difficile à évaluer. L'équipe data devait en continu anticiper les besoins en serveurs. "Gérer du stock de serveurs n'est pas notre métier et nous cherchions une solution plus commode, sans aucune limite de stockage" ajoute Aissa Belaid.
Au plan budgétaire ensuite, l'infrastructure traditionnelle impliquant des investissements lourds à chaque nouveau projet. "Par exemple, créer notre plateforme de gestion des données (DMP) impliquait d'ajouter une cinquantaine de serveurs. Avec le rackage, l'installation, la location d'espace, le total s'élevait à près d'un million d'euros, ce qui était rédhibitoire dans notre infrastructure traditionnelle" explique Aissa Belaid. L'infrastructure dédiée aux big data devait évoluer et permettre de lancer de plus nombreux POC avec davantage d'agilité, sans de telles contraintes financières.
Pour Aissa Belaid, l'infrastructure dédiée aux big data devait migrer dans le cloud pour échapper aux limites de stockage des data centers de l'entreprise. Le choix d'Amazon Web Services s'est rapidement imposé : "AWS offre la panoplie de services la plus riche du marché avec une grande stabilité que n'ont pas encore atteint les concurrents" souligne Aissa Belaid.
A présent, leboncoin utilise plusieurs centaines d'instances Amazon Elastic Compute Cloud (Amazon EC2) et peut en ouvrir à la demande le temps de créer et tester des POC. Son équipe utilise aussi le service de calcul sans serveur AWS Lambda.
Son lac de données est stocké sur Amazon Simple Storage Service (Amazon S3). Avec Amazon Redshift, leboncoin dispose d'un service d'entrepôt de données rapide, entièrement géré et doté d'une capacité de plusieurs pétaoctets, auquel se combine le service Amazon Relational Database Service (Amazon RDS).
Amazon Kinesis facilite de plus le chargement et l'analyse des données diffusées. L'accès aux services et aux ressources est contrôlé avec AWS Identity and Access Management (IAM).
Grâce aux capacités offertes par AWS, l'équipe data s'est affranchie de toute limite de stockage et sa gestion de projet bénéficie d'une plus grande souplesse. leboncoin stocke aujourd'hui plus de 100 téraoctets de données sur la plateforme d'AWS sans inquiétude quant aux volumes à venir. De plus, l'équipe n'est plus mobilisée par les questions complexes d'anticipation et de gestion des stocks de serveurs que soulevait son infrastructure traditionnelle. En utilisant AWS, elle dispose de ressources de stockage à la demande et peut ouvrir des instances Amazon EC2 sur mesure pour ses besoins d'expérimentation. "Nous avons repris la main sur notre métier !" apprécie Aissa Belaid.
Le modèle de facturation à l'usage d'AWS contribue à la souplesse accrue dans la gestion de projet. Il évite les investissements lourds en entrée de chaque projet, ce qui favorise le lancement de POC et encourage l'innovation. Aissa Belaid confirme :"Dans le Cloud AWS, nous pouvons démontrer la viabilité d'un projet pour quelques centaines d'euros, contre plusieurs centaines de milliers d'euros avec notre infrastructure traditionnelle. La prise de risque portant sur des sommes minimes, essayer n'est plus un problème. Notre équipe est libérée et ose innover !". En témoigne le projet de DMP en cours de développement sur la plateforme d'AWS : "Nous avons lancé notre projet de plateforme de gestion de données dans le Cloud AWS pour quelques milliers d'euros, alors qu'il était impossible de développer cet outil innovant dans notre infrastructure traditionnelle avec un coût de près d'un million d'euros en entrée".
Aujourd'hui, leboncoin s'appuie sur le Cloud AWS pour ses analyses big data. Alors que les anciens outils de BI se limitaient à une analyse de données sur deux semaines, leboncoin peut à présent exploiter les données de plusieurs années d'activité. "Dans le Cloud AWS, nous travaillons avec des data sets de 40 téraoctets de données sans aucun problème. D'ailleurs, nous ne nous occupons plus ni des coûts ni du stockage dans nos projets big data" indique Aissa Belaid. A la clé, son équipe peut identifier des tendances pertinentes, mener des analyses prédictives et proposer de nouveaux services, en particulier aux annonceurs professionnels. C'est le cas de l'Atelier business, une nouvelle offre de publicité personnalisée et géolocalisée pour les TPE-PME en France.
Pour approfondir la façon dont AWS peut aider à exploiter les big data, consultez notre page sur le sujet.