Architecture de données moderne sur AWS
Architecture de données moderne – comment cela fonctionne
Une architecture de données moderne part du principe selon lequel l'adoption d'une approche universelle à l'analytique conduit à terme à trouver des compromis. Il ne s'agit pas simplement d'intégrer un lac de donnée à un entrepôt de données, mais plutôt d'intégrer un lac de données, un entrepôt de données et des magasins spécialisés, afin d'unifier la gouvernance et de faciliter le mouvement des données. Avec une architecture de données moderne sur AWS, les clients peuvent rapidement créer des lacs de données évolutifs, utiliser une collection vaste et profonde de services de données spécialisés, assurer la conformité via un accès unifié aux données, la sécurité et la gouvernance, mettre à l'échelle leurs systèmes à un faible coût sans compromettre les performances, et partager facilement les données au-delà des frontières organisationnelles, ce qui leur permet de prendre des décisions avec rapidité et agilité à grande échelle.

Pourquoi vous devez adopter une architecture de données moderne
Les volumes des données augmentent de façon sans précédent et passent de téraoctets à des pétaoctets et voire même à des exaoctets. Les approches d'analyse des données sur site traditionnelles ne peuvent pas gérer ces volumes de données, car elles n'offrent pas une assez bonne mise à l'échelle et s'avèrent trop coûteuses. Beaucoup d'entreprises prennent leurs données stockées dans des silos et les déplacent dans un seul endroit, souvent appelé lac de données, pour les analyser et les utiliser pour des tâches de ML (machine learning). Parfois, ces mêmes entreprises stockent d'autres données dans des magasins de données spécialisés afin de les analyser et d'obtenir rapidement des informations à partir de données structurées et non structurées. Ce mouvement des données peut être « inside-out » (sortant), « outside-in » (entrant), « around the perimeter » (autour du périmètre) ou « sharing across» (partage dans), car les données ont une gravité.
-
Inside-out (sortant)
-
Outside in (entrant)
-
Around the perimeter (autour du périmètre)
-
Sharing across (partage dans)
-
Gravité des données
-
Inside-out (sortant)
-
Mouvement de données inside-out (sortant)
Il s'agit d'une situation dans laquelle les clients stockent des données dans un lac de données et en déplacent une partie vers un magasin de données spécialisé pour effectuer des tâches de machine learning ou d'analyse supplémentaires.
Exemple : les données de suivi de parcours de navigation (clickstream) des applications Web peuvent être directement collectées dans un lac de données, et une partie de ces données peuvent être déplacées vers un entrepôt de données pour la génération de rapports quotidiens. Nous considérons ce concept comme un mouvement de données inside-out.
-
Outside in (entrant)
-
Mouvement de données outside-in (entrant)
Il s'agit d'une situation dans laquelle les clients stockent des données dans des magasins de données spécialisés, tels que des entrepôts de données ou des bases de données, et les déplacent vers un lac de données pour les analyser.
Exemple : ils copient les résultats des requêtes des ventes de produits dans une région donnée à partir de leur entrepôt de données et les collent dans leur lac de données pour exécuter des algorithmes de recommandation de produits sur un plus grand jeu de données ML à l'aide du ML.
-
Around the perimeter (autour du périmètre)
-
Mouvement de données around the perimeter (autour du périmètre)
Les clients intègrent aisément leurs lacs, entrepôts et magasins de données spécialisés.
Exemple : ils peuvent copier les données de catalogue de produits stockées dans leur base de données vers leur service de recherche, afin de permettre de plus facilement parcourir leur catalogue produits et de retirer les requêtes de recherche de la base de données.
-
Sharing across (partage dans)
-
Mouvement de données sharing across (partage dans)
Les clients utilisent une architecture de données moderne pour faciliter la gouvernance et le partage des données à travers les frontières logiques ou physiques de la gouvernance afin de créer des domaines de données alignés sur les secteurs d'activité.
-
Gravité des données
-
Gravité des données
À mesure que le volume de données de ces lacs et magasins spécialisés augmente, il s'avère de plus en plus difficile de déplacer toutes ces données autour du périmètre, car les données subissent la gravité. Il est tout aussi important de veiller à ce que les données puissent être acheminées aux endroits requis, avec les bons contrôles, afin de pouvoir les analyser et en obtenir des informations.
Piliers de l'architecture de données moderne
Les organisations prennent leurs données stockées dans des silos et les déplacent dans un seul endroit pour les analyser et les utiliser pour des tâches de ML (machine learning). Pour réaliser cette opération de façon optimale, elles ont besoin d'utiliser une architecture de données moderne leur permettant de déplacer facilement des données entre des lacs et des magasins de données spécialisés. Cette méthode moderne de conception d'architecture nécessite :
-
Lacs de données évolutifs
Des dizaines de milliers de clients exécutent leurs lacs de données sur AWS.
Aujourd'hui, la mise en place et la gestion de lacs de données impliquent la réalisation de nombreuses tâches manuelles fastidieuses. AWS Lake Formation automatise ces tâches pour que vous puissiez créer et sécuriser votre lac de données en quelques jours au lieu plusieurs mois. En ce qui concerne le stockage de votre lac de données, Amazon S3 est le meilleur endroit pour créer un lac de données. En effet, sa durabilité de 11 neufs et sa disponibilité de 99,99 % sont inégalées, ses fonctionnalités d'audit, de conformité et de sécurité sont les meilleures avec un contrôle d'accès et une journalisation des audits au niveau des objets, sa flexibilité est la meilleure avec 5 niveaux de stockage et son coût est le plus faible avec une tarification qui commence à moins d'1 USD par To par mois.
-
Services analytiques dédiés
AWS offre le portefeuille de services d'analyses optimisés pour vos cas d'utilisation d'analyses uniques le plus vaste et le plus approfondi.
Ces services sont conçus pour être les meilleurs, ce qui signifie que vous n'aurez jamais à faire de compromis sur la performance, l'échelle ou le coût lorsque vous les utiliserez. Par exemple, Amazon Redshift est 3 fois plus rapide et au moins 50 % moins cher que n'importe quel autre entrepôt de données cloud. Spark sur Amazon EMR exécute 1,7 fois plus rapidement qu'Apache Spark 3.0 standard et vous permet d'exécuter des analyses à l'échelle des pétaoctets à des coûts inférieurs de moitié à ceux des solutions sur site traditionnelles.
-
Accès unifié aux données
Alors que les données de vos lacs de données et des magasins de données dédiés continuent à croître, vous avec souvent besoin de pouvoir en déplacer une partie d'un magasin de données à l'autre.
AWS vous aide à combiner, déplacer et répliquer des données dans plusieurs entrepôts de données et dans votre lac de données. Par exemple, AWS Glue fournit des fonctionnalités d’intégration de données complètes qui vous aide à découvrir, préparer et combiner des données pour l’analyse, le machine learning et le développement d’applications, tandis qu’Amazon Redshift peut facilement interroger vos données dans votre lac de données S3. Aucun autre fournisseur d'analyse rend vos déplacements de données, à bonne échelle, vers l'endroit où vous en avez besoin, aussi faciles.
-
Gouvernance unifiée
Une des parties les plus importante de l'architecture d'analyse moderne est la capacité pour les clients d'autoriser, gérer et auditer l'accès aux données.
Cela peut représenter un défi, car la gestion de la sécurité, du contrôle d'accès et du journal d'activité d'audit dans tous les magasins de données de votre organisation est une tâche complexe, longue et sujette aux erreurs. AWS vous donne la capacité de gouvernance nécessaire pour gérer l'accès à toutes vos données au sein de votre lac de données et de vos magasins de données spécialisés à partir d'un seul endroit. AWS Lake Formation vous permet de définir et de gérer la sécurité, la gouvernance et les politiques d'audit de manière centralisée, ce qui entraîne un contrôle d'accès uniforme pour le partage des données à l'échelle de l'entreprise.
-
Performant et rentable
AWS s'engage à fournir les meilleures performances au coût le plus faible possible de tous les services d'analytique. De plus, nous innovons en permanence pour améliorer le rapport prix/performances de nos services.
En plus d'être le leader du marché pour ce qui est du rapport prix/performances des services d'analyse, S3 Intelligent Tiering permet aux clients d'économiser jusqu'à 70 % sur les coûts de stockage pour les données stockées dans votre lac de données. Par ailleurs, Amazon EC2 fournit un accès à un choix de pointe de plus de 200 types d'instance, à une bande passante réseau allant jusqu'à 100 Gbit/s et à la possibilité de choisir entre des instances à la demande, réservées et Spot.
Le nombre de clients qui utilisent une architecture de données moderne sur AWS est plus élevé que partout ailleurs.
-
Groupe BMW
-
Pour accélérer l'innovation et démocratiser l'utilisation des données à l'échelle, le groupe BMW a migré son lac de données sur site vers un lac géré par Amazon S3. Désormais, BMW traite chaque jour des téraoctets de données télémétriques de millions de véhicules et résout les problèmes avant qu'ils n'affectent ses clients.
-
Nielsen
-
Nielsen, une entreprise internationale de mesure et d'analyse de données, a drastiquement augmenté le volume quotidien de données qu'elle peut intégrer, traiter et communiquer à ses clients, en tirant parti d'une technologie cloud moderne. Chaque jour, elle mesure plus de 30 millions de ménages contre 40 000 auparavant.
-
Engie
-
Avec 160 000 employés et 40 unités opérationnelles dans 70 pays, ENGIE est l'un des plus grands fournisseurs d'énergie en France. Le lac de donnée d'environ 100 To de son Common Data Hub utilise les services AWS pour répondre à ses exigences métier en matière de science des données, marketing et opérations.
Partenaires
Découvrez comment nos partenaires aident les organisations à créer une architecture de données moderne sur AWS.

Cloudera
L'exécution de Cloudera Enterprise sur AWS fournit aux utilisateurs informatiques et professionnels une plateforme de gestion des données qui peut servir de base au traitement et à l'analyse modernes des données.
/Informatica_icon_solutionspace.b413aef928d0d5cb73d65ffe147b99059a187b46.png)
Informatica Cloud
Informatica Cloud offre une intégration optimisée aux services de données AWS avec une connectivité native à plus de 100 applications.

Dataguise
Dataguise est le leader de l'exécution métier sécurisée, fournissant des solutions de sécurité centrées sur les données qui détectent et protègent les données sensibles d'une entreprise, peu importe où elles se trouvent ou qui a besoin de les exploiter.

Alluxio Data Orchestration
Alluxio Data Orchestration permet aux clients de mieux exploiter les principaux services AWS, tels que EMR et S3 pour les charges de travail d'analytique et d'IA.
Mise en route

AWS Data-Driven Everything
Dans le cadre du programme AWS Data-Driven EVERYTHING (D2E), AWS s'associe à ses clients pour avancer plus rapidement, avec plus de précision et une portée bien plus ambitieuse, afin de faire décoller votre propre volant d'inertie des données.
En savoir plus »

AWS Data Lab
AWS Data Lab offre des engagements techniques communs et accélérés entre les clients et les ressources techniques AWS pour créer des livrables tangibles qui accélèrent les initiatives de modernisation des données et des analyses.

Architecture de référence AWS pour l'analytique et le big data
Découvrez les bonnes pratiques d'architecture pour l'analyse, l'entreposage et la gestion des données sur AWS.