Qu’est-ce qu’un lac de données ?

Stockez toutes vos données dans un référentiel centralisé à n'importe quelle échelle

Qu’est-ce qu’un lac de données ?

Un lac de données est un référentiel centralisé qui vous permet de stocker toutes vos données structurées et non structurées à n'importe quelle échelle. Vous pouvez stocker vos données telles quelles, sans avoir à structurer les données au préalable, et exécuter différents types d'analyses, des tableaux de bord et visualisations au traitement du Big Data, en passant par l'analyse en temps réel et l'apprentissage automatique pour guider de meilleures décisions.

diagramme de lac de données

Pourquoi avez-vous besoin d'un lac de données ?

Les organisations qui génèrent avec succès de la valeur commerciale à partir de leurs données surpasseront leurs pairs. Une enquête d'Aberdeen a montré que les organisations qui ont mis en œuvre un Data Lake surpassent de 9 % les entreprises similaires en croissance interne de chiffre d’affaires. Ces dirigeants ont pu effectuer de nouveaux types d'analyses comme le machine learning sur de nouvelles sources telles que les fichiers journaux, les données de flux de clics, les médias sociaux et les appareils connectés à Internet stockés dans le lac de données. Cela les a aidés à identifier et à exploiter plus rapidement les opportunités de croissance commerciale en attirant et en fidélisant les clients, en augmentant la productivité, en assurant la maintenance proactive des appareils et en prenant des décisions éclairées.

Lacs de données et entrepôts de données : deux approches différentes

En fonction des exigences, une organisation typique aura besoin à la fois d'un entrepôt de données et d'un lac de données car ils répondent à des besoins et des cas d'utilisation différents.

Un entrepôt de données est une base de données optimisée pour analyser des données relationnelles provenant de systèmes transactionnels et d'applications métier. La structure des données et le schéma sont définis à l'avance pour optimiser les requêtes SQL rapides, où les résultats sont généralement utilisés pour le reporting opérationnel et l'analyse. Les données sont nettoyées, enrichies et transformées afin de pouvoir agir comme la « source unique de vérité » en laquelle les utilisateurs peuvent avoir confiance.

Un lac de données est différent car il stocke des données relationnelles provenant d'applications métier et des données non relationnelles provenant d'applications mobiles, d'appareils IoT et de médias sociaux. La structure des données ou du schéma n'est pas définie lors de la capture des données. Cela signifie que vous pouvez stocker toutes vos données sans une conception minutieuse ou sans avoir besoin de savoir à quelles questions vous pourriez avoir besoin de réponses à l'avenir. Différents types d'analyses sur vos données, comme les requêtes SQL, les analyses Big Data, la recherche en texte intégral, les analyses en temps réel et le machine learning, peuvent être utilisés pour découvrir des informations.

Alors que les organisations dotées d'entrepôts de données voient les avantages des lacs de données, elles font évoluer leur entrepôt pour inclure des lacs de données et activer diverses capacités de requête, des cas d'utilisation de la science des données et des capacités avancées pour découvrir de nouveaux modèles d'information. Gartner nomme cette évolution la « solution de gestion des données pour l'analyse » ou « DMSA ».

Caractéristiques Entrepôt de données Lac de données
Données Données relationnelles provenant de systèmes transactionnels, de bases de données opérationnelles et d'applications métier Données non relationnelles et relationnelles provenant d'appareils IoT, de sites Web, d'appli mobiles, de réseaux sociaux et d'appli d'entreprise
Schéma Conçu avant l'implémentation de l'entrepôt de données (schéma sur écriture) Conçu au moment de l'analyse (schéma sur lecture)
Prix/performance Résultats de recherches les plus rapides via un système de stockage plus cher Résultats de recherches de plus en plus rapides via un système de stockage peu coûteux
Qualité des données
Données hautement organisées servant de véritable référence Toutes les données qui peuvent ou ne peuvent être conservées (c'est-à-dire les données brutes)
Utilisateurs Analystes métier Les spécialistes des données, les développeurs de base de données et analystes commerciaux (utilisant des données organisées)
Analyse Rapport de production par lot, BI et visualisation Machine learning, analyse prédictive, découverte de données et profilage

Les éléments essentiels d'une solution lac de données et d’analyse

Au fur et à mesure que les organisations créent des lacs de données et une plateforme d'analyse, elles doivent prendre en compte un certain nombre de fonctionnalités clés notamment :

Déplacement de données

Les lacs de données vous permettent d'importer n'importe quelle quantité de données pouvant venir en temps réel. Les données sont collectées à partir de plusieurs sources et déplacées dans le lac de données dans leur format d'origine. Ce processus vous permet de mettre à l'échelle des données de toute taille, tout en gagnant du temps lors de la définition des structures de données, du schéma et des transformations.

Stockez et archivez des données en toute sécurité

Les lacs de données vous permettent de stocker des données relationnelles telles que des bases de données opérationnelles et des données provenant d'applications métier, et des données non relationnelles telles que des applications mobiles, des appareils IoT et des médias sociaux. Ils vous permettent également de comprendre quelles sont les données du lac grâce à l'exploration, au catalogage et à l'indexation des données. Enfin, les données doivent être sécurisées pour garantir la protection de vos actifs de données.

Analyse

Les lacs de données permettent à divers rôles de votre organisation, tels que les scientifiques des données, les développeurs de données et les analystes commerciaux, d'accéder aux données avec leur choix d'outils et de cadres d'analyse. Cela inclut les frameworks open source tels qu'Apache Hadoop, Presto et Apache Spark, et les offres commerciales des fournisseurs d'entrepôt de données et d'intelligence d'affaires. Les lacs de données vous permettent d'exécuter des analyses sans avoir à déplacer vos données vers un système d'analyse distinct.

Machine Learning

Les lacs de données permettront aux organisations de générer différents types d'informations y compris des rapports sur les données historiques et de faire du machine learning où des modèles sont construits pour prévoir les résultats probables et suggérer une gamme d'actions prescrites pour obtenir le résultat optimal.

La valeur d'un lac de données

La capacité d'exploiter plus de données, de plus de sources, en moins de temps, et de permettre aux utilisateurs de collaborer et d'analyser les données de différentes manières conduit à une prise de décision meilleure et plus rapide. Les exemples de valeur ajoutée des lacs de données :

Amélioration des interactions client

Un lac de données peut combiner les données client d'une plate-forme CRM avec des analyses de médias sociaux, une plate-forme marketing qui comprend l'historique des achats et des tickets d'incident pour permettre à l'entreprise de comprendre la cohorte de clients la plus rentable, la cause de la perte de clients et les promotions ou récompenses, et ainsi mieux fidéliser sa clientèle.

Améliorer les choix d'innovation en R&D

Un lac de données peut aider vos équipes de R&D à tester leurs hypothèses, les affiner et évaluer les résultats, par exemple en choisissant les bons matériaux dans la conception de votre produit, ce qui accélère les performances, en effectuant des recherches génomiques menant à des médicaments plus efficaces ou en comprenant la volonté des clients de payer pour différents attributs.

Augmenter l'efficacité opérationnelle

L'Internet des objets (IoT) propose davantage de moyens de collecter des données sur des processus tels que la fabrication, avec des données en temps réel provenant d'appareils connectés à Internet. Un lac de données facilite le stockage et l'exécution d'analyses sur les données IoT générées par la machine afin de découvrir des moyens de réduire les coûts opérationnels et d'améliorer la qualité.  

Les défis des Data Lakes

Le principal défi avec une architecture de lac de données est que les données brutes sont stockées sans surveillance du contenu. Pour qu'un lac de données rende les données utilisables, il doit disposer de mécanismes définis pour cataloguer et sécuriser les données. Sans ces éléments, les données sont introuvables ou ne sont pas fiables, ce qui entraîne un « bourbier de données ». Pour répondre aux besoins d'un public plus large, les lacs de données doivent avoir une gouvernance, une cohérence sémantique et des contrôles d'accès.

 

Déploiement des lacs de données dans le cloud

Les lacs de données constituent une charge de travail idéale à déployer dans le cloud, car le cloud offre des performances, une évolutivité, une fiabilité, une disponibilité, un ensemble diversifié de moteurs d'analyse et des économies d'échelle massives. L’étude ESG a révélé que 39% des répondants considèrent le cloud comme leur principal déploiement pour l'analyse, 41 % pour les entrepôts de données et 43 % pour Spark. Les principales raisons pour lesquelles les clients perçoivent le cloud comme un avantage pour les lacs de données sont une meilleure sécurité, un temps de déploiement plus rapide, une meilleure disponibilité, des mises à jour de fonctionnalités plus fréquentes, une plus grande élasticité, une couverture géographique plus étendue et les coûts liés à l'utilisation réelle.

 

Créez vos lacs de données dans le cloud sur AWS

AWS fournit le portefeuille de services le plus sécurisé, évolutif, complet et économique qui permet aux clients de créer leur lac de données dans le cloud, d'analyser toutes leurs données, y compris les données d'appareils IoT avec une variété d'approches analytiques notamment le machine learning. En conséquence, il y a plus d'organisations exécutant leurs lacs de données et leurs analyses sur AWS que partout ailleurs, avec des clients comme NETFLIX, Zillow, NASDAQ, Yelp, iRobot et FINRA qui font confiance à AWS pour exécuter leurs charges de travail d'analyse critiques. En savoir plus.

Plus de ressources sur le lac de données

Apprenez-en plus sur les lacs de données auprès des analystes du secteur.

Démarrer avec AWS

Step 1 - Sign up for an AWS account

Créer un compte AWS

Obtenez un accès instantané à l'offre gratuite d'AWS

icon2

Créez un data lake sécurisé en quelques jours

En savoir plus sur AWS Lake Formation
icon3

Commencer à créer avec AWS