Qu'est-ce qu'une approche lake house ?

Intégrez aisément vos lacs, entrepôts et magasins de données spécialisés

Approche lake house - principe

Une approche lake house considère qu'une approche universelle en analytique aboutit à terme à trouver des compromis. Il ne s'agit pas simplement d'intégrer un lac de donnée à un entrepôt de données, mais plutôt d'intégrer un lac de données, un entrepôt de données et des magasins spécialisés, afin d'unifier la gouvernance et de faciliter le mouvement des données. Avec une architecture lake house sur AWS, les clients peuvent stocker leurs données dans un lac de données et utiliser une gamme de services spécialisés de données sur le lac leurs permettant de prendre des décisions rapidement et avec agilité, à une échelle et un rapport prix/performances défiant toute concurrence.

Une architecture lake house requiert que les clients :

  • créent rapidement des lacs de données évolutifs ;
  • utilisent de nombreux services spécialisés complets de données ;
  • respectent les normes de conformité via une méthode unifiée de sécurisation, de contrôle et de gestion de l'accès aux données ;
  • mettent à l'échelle les systèmes à moindre coût sans lésiner sur les performances.
Fonctionnement - approche lake house

Pourquoi devez-vous adopter une approche lake house ?

Les volumes des données augmentent de façon sans précédent et passent de téraoctets à des pétaoctets et voire même à des exaoctets. Les approches d'analyse des données sur site traditionnelles ne peuvent pas gérer ces volumes de données, car elles n'offrent pas une assez bonne mise à l'échelle et s'avèrent trop coûteuses. Beaucoup d'entreprises prennent leurs données stockées dans des silos et les déplacent dans un seul endroit, souvent appelé lac de données, pour les analyser et les utiliser pour des tâches de ML (machine learning). Parfois, ces mêmes entreprises stockent d'autres données dans des magasins de données spécialisés pour les analyser et obtenir rapidement des informations à partir de données structurées et non structurées. Ce mouvement de données peut être « inside-out » (sortant), « outside-in » (entrant) ou « around the perimeter » (autour du périmètre) car les données subissent la gravité.

  • Inside-out (sortant)
  • Outside in (entrant)
  • Around the perimeter (autour du périmètre)
  • Gravité des données
  • Inside-out (sortant)
  • Mouvement de données inside-out (sortant)

    Il s'agit d'une situation dans laquelle les clients stockent des données dans un lac de données et en déplacent une partie vers un magasin de données spécialisé pour effectuer des tâches de machine learning ou d'analyse supplémentaires.

    Exemple : les données de suivi de parcours de navigation (clickstream) des applications Web peuvent être directement collectées dans un lac de données, et une partie de ces données peuvent être déplacées vers un entrepôt de données pour la génération de rapports quotidiens. Nous considérons ce concept comme un mouvement de données inside-out.

    Mouvement de données inside-out (sortant)
  • Outside in (entrant)
  • Mouvement de données outside-in (entrant)

    Il s'agit d'une situation dans laquelle les clients stockent des données dans des magasins de données spécialisés, tels que des entrepôts de données ou des bases de données, et les déplacent vers un lac de données pour les analyser. 

    Exemple : ils copient les résultats des requêtes des ventes de produits dans une région donnée à partir de leur entrepôt de données et les collent dans leur lac de données pour exécuter des algorithmes de recommandation de produits sur un plus grand jeu de données ML à l'aide du ML.

    Mouvement de données outside-in (entrant)
  • Around the perimeter (autour du périmètre)
  • Mouvement de données around the perimeter (autour du périmètre)

    Les clients intègrent aisément leurs lacs, entrepôts et magasins de données spécialisés. 

    Exemple : ils peuvent copier les données de catalogue de produits stockées dans leur base de données vers leur service de recherche, afin de permettre de plus facilement parcourir leur catalogue produits et de retirer les requêtes de recherche de la base de données.

    Mouvement de données outside-in (entrant)
  • Gravité des données
  • Gravité des données

    À mesure que le volume de données de ces lacs et magasins spécialisés augmente, il s'avère de plus en plus difficile de déplacer toutes ces données autour du périmètre, car les données subissent la gravité. Il est tout aussi important de veiller à ce que les données puissent être acheminées aux endroits requis, avec les bons contrôles, afin de pouvoir les analyser et en obtenir des informations.

    Gravité des données

Piliers de l'approche lake house

Les organisations prennent leurs données stockées dans des silos et les déplacent dans un seul endroit pour les analyser et les utiliser pour des tâches de ML (machine learning). Pour réaliser cette opération de façon optimale, elles ont besoin d'appliquer une approche lake house leur permettant de déplacer facilement des données entre des lacs et des magasins de données spécialisés. Cette méthode moderne d'architecture nécessite :

AWS est l'endroit où il y a le plus de clients qui créer des lake houses

  • lake_house_customers_logo_bmw
  • lake_house_customers_logo_nielsen
  • lake_house_customers_logo_engie
  • Groupe BMW
  • Groupe BMW
    Groupe BMW

    Pour accélérer l'innovation et démocratiser l'utilisation des données à l'échelle, le groupe BMW a migré son lac de données sur site vers un lac géré par Amazon S3. Désormais, BMW traite chaque jour des téraoctets de données télémétriques de millions de véhicules et résout les problèmes avant qu'ils n'affectent ses clients.

    Lire l'étude de cas 
  • Nielsen
  • Nielsen
    Nielsen

    Nielsen, une entreprise internationale de mesure et d'analyse de données, a drastiquement augmenté le volume quotidien de données qu'elle peut intégrer, traiter et communiquer à ses clients, en tirant parti d'une technologie cloud moderne. Chaque jour, elle mesure plus de 30 millions de ménages contre 40 000 auparavant.

    Lire l'étude de cas 
  • Engie
  • Engie
    lake_house_customers_logo_engie

    Avec 160 000 employés et 40 unités opérationnelles dans 70 pays, ENGIE est l'un des plus grands fournisseurs d'énergie en France. Le lac de donnée d'environ 100 To de son Common Data Hub utilise les services AWS pour répondre à ses exigences métier en matière de science des données, marketing et opérations.

    Lire l'étude de cas 

Partenaires

Découvrez comment nos partenaires aident les organisations à créer une architecture de données moderne en appliquant l'approche lake house sur AWS.

Cloudera

Cloudera

L'exécution de Cloudera Enterprise sur AWS fournit aux utilisateurs informatiques et professionnels une plateforme de gestion des données qui peut servir de base au traitement et à l'analyse modernes des données.

En savoir plus »

Informatica Cloud

Informatica Cloud

Informatica Cloud offre une intégration optimisée aux services de données AWS avec une connectivité native à plus de 100 applications.

En savoir plus »

Dataguise

Dataguise

Dataguise est le leader de l'exécution métier sécurisée, fournissant des solutions de sécurité centrées sur les données qui détectent et protègent les données sensibles d'une entreprise, peu importe où elles se trouvent ou qui a besoin de les exploiter.

En savoir plus »

Alluxio Data Orchestration

Alluxio Data Orchestration

Alluxio Data Orchestration permet aux clients de mieux exploiter les principaux services AWS, tels que EMR et S3 pour les charges de travail d'analytique et d'IA.

En savoir plus »

Mise en route

Programme AWS Data Driven Everything

AWS Data-Driven Everything
Dans le cadre du programme AWS Data-Driven EVERYTHING (D2E), AWS s'associe à ses clients pour avancer plus rapidement, avec plus de précision et une portée bien plus ambitieuse, afin de faire décoller votre propre volant d'inertie des données.

En savoir plus »

AWS data lab

AWS Data Lab
AWS Data Lab offre des engagements techniques communs et accélérés entre les clients et les ressources techniques AWS pour créer des livrables tangibles qui accélèrent les initiatives de modernisation des données et des analyses.

En savoir plus »

Architecture de référence AWS pour l'analytique et le big data

Architecture de référence AWS pour l'analytique et le big data
Découvrez les bonnes pratiques d'architecture pour l'analyse, l'entreposage et la gestion des données sur AWS.

En savoir plus »