De nombreux clients d'Amazon Web Services (AWS) ont besoin d'une solution de stockage de données et d'analytique qui offre plus d'agilité et de flexibilité que les systèmes de gestion de données traditionnels. Un lac de données est une nouvelle façon de stocker et d’analyser des données dont la popularité ne cesse de croître. Cette popularité croissante s’explique par le fait que le lac de données permet aux entreprises de gérer plusieurs types de données provenant d’une grande variété de sources et de stocker ces données dans un référentiel centralisé, qu’elles soient structurées ou non.
Le Cloud AWS fournit la plupart des blocs de construction nécessaires pour aider les clients à déployer un lac de données sécurisé, flexible et économique. Ces blocs incluent les AWS managed services qui permettent d'ingérer, de stocker, de rechercher, de traiter et d'analyser les données structurées et non structurées. Pour aider nos clients dans la création de leurs lacs de données, AWS propose la solution Data Lake sous AWS, qui déploie une architecture du lac de données économique, haute disponibilité sur le Cloud AWS, ainsi qu'une console conviviale permettant d'exécuter des recherches et de demander des jeux de données.
Présentation
La solution Data Lake sous AWS configure automatiquement les principaux services AWS nécessaires pour étiqueter, rechercher, partager, transformer, analyser et gérer aisément des sous-ensembles de données précis à l'échelle de l'entreprise ou avec des utilisateurs externes. La solution déploie une console à laquelle les utilisateurs peuvent accéder pour rechercher et parcourir les jeux de données disponibles pour mieux remplir leurs missions. Elle inclut désormais un modèle fédéré qui vous permet de lancer une version de la solution prête à être intégrée à Microsoft Active Directory.
Le diagramme ci-dessous présente l'architecture du lac de données que vous pouvez créer à l'aide de l'exemple de code sur GitHub.

Architecture de Data Lake on AWS
Le code configure une suite de microservices (fonctions) AWS Lambda, Amazon OpenSearch Service pour des fonctionnalités de recherche solides, Amazon Cognito pour l'authentification de l'utilisateur, AWS Glue pour la transformation de données et Amazon Athena pour l'analyse.
Data Lake on AWS exploite la sécurité, la durabilité et la capacité de mise à l'échelle de Simple Storage Service (Amazon S3) pour gérer un catalogue persistant de jeux de données organisationnels, ainsi qu'Amazon DynamoDB pour gérer les métadonnées correspondantes. Une fois qu'un jeu de données est répertorié, il est possible de rechercher ses attributs et identifications descriptives. Les utilisateurs peuvent rechercher et parcourir les ensembles de données disponibles dans la console, et créer une liste de données auxquelles ils souhaitent accéder. La solution garde une trace des jeux de données qu'un utilisateur sélectionne. Elle génère aussi un fichier manifeste contenant des liens d'accès sécurisés vers le contenu souhaité au moment où l'utilisateur se déconnecte.
Data Lake on AWS
Version 2.2
Date de la dernière mise à jour : 09/2021
Auteur : AWS
Ressources supplémentaires
Fonctions
Flexibilité de l'accès aux données
Couche de stockage géré
Inscription à Federation
Interface de ligne de commande
Interface utilisateur

Parcourez notre bibliothèque de solutions AWS pour obtenir des réponses aux problèmes architecturaux courants.

Trouvez des partenaires AWS certifiés pour vous aider à démarrer.

Trouvez des diagrammes d'architecture prescriptifs, des exemple de code et du contenu technique pour les cas d'utilisation courants.