Bibliothèque de solutions AWS

Data Lake sous AWS

De nombreux clients d'Amazon Web Services (AWS) ont besoin d'une solution de stockage de données et d'analytique qui offre plus d'agilité et de flexibilité que les systèmes de gestion de données traditionnels. Un lac de données est une nouvelle façon de stocker et d’analyser des données dont la popularité ne cesse de croître. Cette popularité croissante s’explique par le fait que le lac de données permet aux entreprises de gérer plusieurs types de données provenant d’une grande variété de sources et de stocker ces données dans un référentiel centralisé, qu’elles soient structurées ou non.

Le Cloud AWS fournit la plupart des blocs de construction nécessaires pour aider les clients à déployer un lac de données sécurisé, flexible et économique. Ces blocs incluent les AWS managed services qui permettent d'ingérer, de stocker, de rechercher, de traiter et d'analyser les données structurées et non structurées. Pour aider nos clients dans la création de leurs lacs de données, AWS propose la solution Data Lake sous AWS, qui déploie une architecture du lac de données économique, haute disponibilité sur le Cloud AWS, ainsi qu'une console conviviale permettant d'exécuter des recherches et de demander des jeux de données.

Présentation

La solution Data Lake sous AWS configure automatiquement les principaux services AWS nécessaires pour étiqueter, rechercher, partager, transformer, analyser et gérer aisément des sous-ensembles de données précis à l'échelle de l'entreprise ou avec des utilisateurs externes. La solution déploie une console à laquelle les utilisateurs peuvent accéder pour rechercher et parcourir les jeux de données disponibles pour mieux remplir leurs missions. Elle inclut désormais un modèle fédéré qui vous permet de lancer une version de la solution prête à être intégrée à Microsoft Active Directory.

Le diagramme ci-dessous présente l'architecture du lac de données que vous pouvez créer à l'aide de l'exemple de code sur GitHub.

Solution de lac de données | Diagramme d'architecture

Architecture de Data Lake on AWS

Le code configure une suite de microservices (fonctions) AWS Lambda, Amazon OpenSearch Service pour des fonctionnalités de recherche solides, Amazon Cognito pour l'authentification de l'utilisateur, AWS Glue pour la transformation de données et Amazon Athena pour l'analyse.

Data Lake on AWS exploite la sécurité, la durabilité et la capacité de mise à l'échelle de Simple Storage Service (Amazon S3) pour gérer un catalogue persistant de jeux de données organisationnels, ainsi qu'Amazon DynamoDB pour gérer les métadonnées correspondantes. Une fois qu'un jeu de données est répertorié, il est possible de rechercher ses attributs et identifications descriptives. Les utilisateurs peuvent rechercher et parcourir les ensembles de données disponibles dans la console, et créer une liste de données auxquelles ils souhaitent accéder. La solution garde une trace des jeux de données qu'un utilisateur sélectionne. Elle génère aussi un fichier manifeste contenant des liens d'accès sécurisés vers le contenu souhaité au moment où l'utilisateur se déconnecte.

Afficher moins

Data Lake on AWS

Version 2.2
Dernière mise à jour : 04/2023
Auteur : AWS

Exemple de code sur GitHub

Ressources supplémentaires

Ressources et FAQ »
Contactez-nous »

Ce guide vous a-t-il été utile ?

Oui

Non

Donner mon avis

Fonctions

Flexibilité de l'accès aux données

Utilisez les URL Simple Storage Service (Amazon S3) pré-signées ou un rôle AWS Identity and Access Management (IAM) approprié pour un accès contrôlé, mais direct, aux jeux de données dans Simple Storage Service (Amazon S3).

Couche de stockage géré

Sécurisez et gérez le stockage et la récupération des données dans un compartiment géré Simple Storage Service (Amazon S3), et utilisez une clé AWS Key Management Service (KMS) spécifique à la solution pour chiffrer les données au repos.

Inscription à Federation

Si vous le souhaitez, vous pouvez permettre aux utilisateurs de se connecter par le truchement d'un fournisseur d'identité (IdP) SAML comme Microsoft Active Directory Federation Services (ADFS).

Interface de ligne de commande

Utilisez l'interface de ligne de commande ou l'API fournie pour automatiser facilement les activités du lac de données ou intégrez ce guide à une automatisation des données existantes des jeux de données entrants et sortants ainsi que l'analyse des données.

Interface utilisateur

Data Lake on AWS fournit une console d'interface utilisateur web intuitive hébergée sur Simple Storage Service (Amazon S3) et diffusée par Amazon CloudFront. Accédez à la console pour gérer facilement les utilisateurs et les politiques des lacs de données, ajouter ou supprimer des packages de données, rechercher des packages de données, et créer des manifestes de jeux de données pour des analyses supplémentaires.