AWS Lake Formation

Créer un lac de données sécurisé en quelques jours

AWS Lake Formation est un service qui facilite la configuration, en quelques jours, d'un lac de données sécurisé. Un lac de données est un référentiel centralisé, organisé et sécurisé qui stocke toutes vos données, à la fois dans leur forme originale et sous forme préparée pour l'analyse. Un lac de données permet de décomposer des silos de données et de combiner différents types d'analytique pour obtenir des informations et guider de meilleures décisions commerciales.

Aujourd'hui, la mise en place et la gestion de lacs de données implique la réalisation de nombreuses tâches manuelles, compliquées et fastidieuses. Ce travail comprend le chargement de données provenant de diverses sources, la surveillance de ces flux de données, la configuration de partitions, l'activation du chiffrement et la gestion des clés, la définition des tâches de transformation et la surveillance de leur fonctionnement, la réorganisation des données dans un format en colonnes, la déduplication de données redondantes et l'appariement des enregistrements liés. Une fois que les données ont été chargées dans le lac de données, vous devez accorder un accès fin aux jeux de données et vérifier l'accès dans le temps par le biais d'un large éventail d'outils et de services d'analytique et de Machine Learning (ML).

Pour créer un lac de données avec Lake Formation, il vous suffit de définir des sources de données et les stratégies d'accès et de sécurité que vous souhaitez appliquer. Ensuite, Lake Formation vous aide à collecter et cataloguer les données des bases de données et du stockage d'objets, à transférer les données dans votre nouveau lac de données Amazon Simple Storage Service (S3), à nettoyer et classer vos données à l'aide d'algorithmes de ML et à sécuriser l'accès à vos données sensibles à l'aide de contrôles détaillés au niveau des colonnes, des lignes et des cellules. Vos utilisateurs peuvent accéder à un catalogue de données centralisées décrivant les jeux de données disponibles et leur utilisation appropriée. Ils utilisent ensuite ces jeux de données avec les services d'analytique et de ML de leur choix, tels qu'Amazon Redshift, Amazon Athena, Amazon EMR pour Apache Spark et Amazon QuickSight. Lake Formation s'appuie sur les fonctionnalités disponibles dans AWS Glue.

AWS re:Invent 2018 : présentation d'AWS Lake Formation (2:44)

Avantages

Création rapide de lacs de données

Avec Lake Formation, vous pouvez déplacer, stocker, cataloguer et nettoyer vos données plus rapidement. Il vous suffit de pointer Lake Formation vers vos sources de données. Il explorera ces sources et les transférera vers votre nouveau lac de données Amazon S3. Lake formation organise les données dans S3 autour des termes de requête fréquemment utilisés et en morceaux de taille correcte pour augmenter l'efficacité. Il modifie également les données dans des formats tels que Apache Parquet et ORC pour une analytique plus rapide. En outre, Lake Formation dispose d'un système de ML de la déduplication et de la recherche des enregistrements correspondants (deux entrées se rapportant à la même chose) pour améliorer la qualité des données.

Gestion de la sécurité simplifiée

Lake Formation fournit un emplacement unique pour définir et appliquer des contrôles d'accès qui fonctionnent au niveau des tables, des colonnes, des lignes et des cellules pour tous les utilisateurs et services qui accèdent à vos données. Vos stratégies sont systématiquement mises en œuvre, ce qui vous évite de les configurer manuellement pour les services de sécurité, tels que AWS Identity and Access Management (IAM) et AWS Key Management Service (KMS), les services de stockage (S3) et les services d'analytique et de ML (tels que Redshift, Athena, AWS Glue et EMR for Apache Spark). Cela réduit les efforts de configuration des stratégies entre les services et assure une mise en œuvre et une conformité cohérentes.

Garantit un accès en libre service aux données

Avec Lake Formation, vous créez un catalogue de données décrivant les différents jeux de données disponibles, ainsi que les groupes d'utilisateurs ayant accès à chacun d'eux. Cela rend vos utilisateurs plus productifs en les aidant à trouver le bon jeu de données à analyser. En fournissant un catalogue de vos données avec des règles de sécurité cohérentes, Lake Formation permet à vos analystes et scientifiques des données d'utiliser plus facilement leur service d'analytique préféré. Ils peuvent utiliser EMR pour Apache Spark, Redshift, Athena, AWS Glue et Amazon QuickSight sur divers jeux de données hébergés dans un même lac de données. Les utilisateurs peuvent également combiner ces services sans avoir à déplacer des données entre des silos.

Fonctionnement

Fonctionnement

Lake Formation aide à créer, sécuriser et gérer votre lac de données. Commencez par identifier les magasins de données existants dans S3 ou dans les bases de données relationnelles et NoSQL, puis déplacez les données dans votre lac de données. Ensuite, analysez, cataloguez et préparez les données pour l'analytique. Donnez alors à vos utilisateurs un accès sécurisé aux données en libre-service via leur choix de services d'analytique. D'autres services AWS et des applications tierces peuvent également accéder aux données via les services affichés. Lake Formation gère toutes les tâches représentées dans la boîte orange et est intégré aux magasins de données et aux services indiqués dans les boîtes bleues.

Cas d'utilisation

Création rapide de lacs de données

Utilisez les plans dans Lake Formation pour déplacer, stocker, cataloguer, nettoyer et organiser vos données plus rapidement. Convertissez les données dans des formats tels que Parquet et ORC pour des analytiques plus rapides, et utilisez le ML intégré pour dédupliquer et trouver des enregistrements correspondants. Simplifiez la façon dont vous stockez et maintenez vos données en utilisant Governed Tables, un nouveau type de table Amazon S3. Governed Tables utilisent des transactions ACID (atomiques, cohérentes, isolées et durables) qui gèrent automatiquement les conflits et garantissent des vues de données cohérentes pour tous les utilisateurs. Governed Tables surveille et optimise aussi automatiquement vos données pour améliorer la performance du moteur lors des requêtes de ces tables.

Définir et gérer les contrôles d'accès de manière centralisée

Lake Formation fournit un emplacement unique pour définir, classer, étiqueter et gérer des autorisations précises pour les données dans Amazon S3. Vous pouvez définir une liste hiérarchique d'identifications, attribuer des identifications aux bases de données, aux tables et aux colonnes, et configurer la sécurité au niveau des colonnes et des cellules.

Appliquer la classification des données et l'accès précis à celles-ci

Lake Formation applique des stratégies sans avoir à configurer les contrôles d'accès aux données dans chaque service consommateur. Lake Formation filtre automatiquement les données et ne révèle aux utilisateurs autorisés que les données autorisées par la politique définie sans avoir à dupliquer les données.

Permettre la gestion continue des données, le voyage dans le temps et l'optimisation du stockage

Améliorez la fiabilité et la crédibilité du lac de données pour le streaming et la mise à jour des données par lots. Interrogez les versions historiques des données et effectuer l'audit des données modifiées. Compactez automatiquement les petits fichiers et activez les filtres déroulants pour réduire les analyses de données et améliorer les performances des requêtes.

Permettre la création de lacs de données fédérés avec un partage inter-comptes

Fournissez des produits de données décentralisés et orientés domaine à travers votre organisation en utilisant un partage de données bien gouverné avec un déplacement de données minimal ou nul.

Consultez « Qu'est-ce qu'un lac de données ? » pour plus d'informations.

Clients

Nu Skin

Nu Skin Enterprises est une entreprise mondiale de vente directe qui distribue plus de 200 produits anti-âge de première qualité dans les catégories soins personnels et compléments alimentaires.

« Nous avons dû relever un défi : étendre nos capacités et mettre à l'échelle le débit de nos systèmes d'analytique existants. Nos données ont été réparties entre diverses solutions SaaS et bases de données déconnectées, ce complique l'analyse des données à grande échelle tout en limitant l'accès aux données sensibles. Pour relever ce défi, nous avons créé une solution de lac de données sur AWS. Cela nous a permis d'agréger les données provenant de divers silos de données dans Amazon S3 où nous avons catalogué et sécurisé toutes les données à l'aide d'AWS Lake Formation. Sans AWS Lake Formation, il aurait été impossible d'obtenir une couche de sécurité évolutive et facile à utiliser pour l'ensemble des données sur Amazon S3. Le service a facilité la configuration et l'application de contrôles d'accès à forte précision basés sur les personas des utilisateurs. »

Joe Sueper, vice-président chargé de l'architecture d'entreprise et de la technologie mondiale chez Nu Skin Enterprises

Panasonic

Panasonic Avionics Corporation est le premier fournisseur mondial de systèmes de divertissement et de communication à bord.

« Notre objectif était de créer une plateforme de données capable de gérer les paramètres de sécurité pour toutes les différentes applications de notre environnement. AWS Lake Formation nous donne désormais la capacité de définir des stratégies une seule fois et de les appliquer partout de la même manière pour les multiples services que nous utilisons, notamment AWS Glue et Amazon Athena. L'amélioration du niveau de contrôle nous garantit un accès sécurisé aux données et aux métadonnées pour les colonnes et les tableaux, et pas seulement pour les objets en groupe, ce qui est un volet important de notre standard de sécurité et de gouvernance des données. »

Anand Desikan, directeur chargé des services cloud et de données chez Panasonic Avionics

Accenture

Accenture est une entreprise leader mondial de services professionnels qui propose une vaste gamme de services et de solutions en stratégie, consulting, numérique, technologie et opérations.

« Je me concentre sur l'accompagnement des clients dans leur aventure "Données sur le cloud". Dans cette optique, nous avons constaté que les entreprises sont confrontées à un problème de manque de données fiables lorsqu'elles doivent analyser des données provenant de sources multiples. Le nettoyage des données est une étape essentielle de l'analyse des données, et son impact sur les résultats et la prise de décisions en entreprise peut être considérable. Les nouvelles fonctionnalités d'AWS Lake Formation nous ont été d'une grande aide pour relever le défi de la véracité des données et pour sécuriser l'accès au lac de données. L'utilisation des techniques avancées de machine learning pour la préparation des données nous a été extrêmement utile pour l'identification des enregistrements correspondants, le nettoyage et la déduplication des données issues de différentes sources de données. Cela permettra de faire des économies de temps, d'efforts et de coûts et d'améliorer la qualité et l'exactitude des données dans les lacs de données d'un client. »

Namrata Maheshwary, architecte principal au sein du Data Business Group chez Accenture

Zalando

Zalando est la première plateforme mode et style de vie en ligne en Europe.

« Nous sommes l'entreprise technologique la plus à la mode d'Europe. À ce titre, nous recherchons sans cesse des solutions numériques pour tous les aspects du parcours mode. AWS Lake Formation nous a fourni un point de contrôle central scalable pour l'accès aux données via Amazon Redshift qui a simplifié et amélioré le processus grâce à un contrôle granulaire de la façon dont nos données sont utilisées. Nous pouvons désormais découvrir les données, y accéder et les analyser dans notre lac de données à l'aide de nos outils préférés, et en tirer parti à des fins d'informatique décisionnelle et de science des données. Ce flux de travail rationalisé aide nos cadres à prendre les bonnes décisions à temps. Il favorise aussi l'innovation par le machine learning. »

Alberto Miorin, responsable de l'ingénierie chez Zalando SE

Life360

Life360 est le premier service spécialement conçu pour assurer la tranquillité d'esprit des familles au monde. L'application Life360 rapproche les familles grâce à des fonctionnalités intelligentes conçues pour protéger et connecter les proches.

« Nous voulions utiliser AWS Lake Formation pour créer notre lac de données afin de soutenir les données de séries chronologiques géoréférencées et de faciliter grandement le chargement des données. En utilisant des plans préfabriqués, nous avons pu intégrer des données dans le lac de données sans que notre équipe d'ingénieurs des données ait à écrire du code à partir de zéro. Ainsi, elle a pu se concentrer sur l'opérationnalisation de l'intégration et non sur la réinvention de la roue. Avec AWS Lake Formation, nous avons pu débloquer rapidement les données disponibles dans Amazon S3 et les rendre disponibles pour analyser un large éventail de services de données AWS. Les données restent dans Amazon S3, nous pouvons les analyser de différentes manières, et nous gardons un contrôle total sur elles. »

Richard Chennault, responsable des services cloud et des données chez Life360, Inc.

Change Healthcare

Change Healthcare est une société indépendante de premier plan dans le secteur des technologies de la santé qui fournit des solutions basées sur les données et l'analyse à environ 2 100 connexions gouvernementales et commerciales, 5 500 hôpitaux, 900 000 médecins et 33 000 pharmacies.

« Nous traitons quotidiennement des données provenant de millions de transactions tout en respectant les réglementations du secteur de la santé, notamment l'HIPAA. Nous sommes très emballés par le lancement d'AWS Lake Formation, qui fournit un point de contrôle central pour charger, nettoyer, sécuriser et cataloguer facilement les données de milliers de clients dans notre lac de données basé sur AWS, réduisant ainsi considérablement notre charge opérationnelle. Les contrôles d'accès aux données de Lake Formation nous permettront de définir facilement et une fois nos politiques et de les appliquer à tous les services d'analytique et de machine learning que nous utilisons, avec des journaux d'audit pour indiquer la conformité. »

Aaron Symanski, CTO chez Change Healthcare

Fender Digital

Fender Digital fait partie de Fender, la marque de guitare emblématique. Elle fabrique des applications, des sites Web, des plateformes et des outils pour compléter les guitares, les amplificateurs et les équipements audio fabriqués par Fender.

« Nous générons des tonnes de données sur les utilisateurs et l'utilisation à partir de nos applications et périphériques numériques. Nous prévoyons de créer un lac de données sur AWS qui sera exploité parallèlement à notre entrepôt de données basé sur Amazon Redshift. J'ai hâte que mon équipe mette la main sur AWS Lake Formation. Lake Formation nous facilitera le chargement, la transformation et le catalogage de nos données et les rendra disponibles de manière sécurisée au sein de notre organisation, à travers un vaste portefeuille de services AWS. Avec une option prête pour une utilisation en entreprise telle que Lake Formation, nous pourrons nous affranchir d'énormes tâches nécessaires à la configuration et à la gestion manuelles de notre lac de données et passer plus de temps à générer de la valeur à partir de nos données. »

Joshua Couch, vice-président chargé de l'ingénierie chez Fender Digital

Cloudreach

Optimisé par la plateforme logicielle de migration et de gestion Cloudamize, Cloudreach apporte simplicité et confiance absolue à la prise de décisions orientées données.

« AWS Lake Formation démocratise le lac de données et crée un point d'accélération pour la stratégie de données d'entreprise. AWS Lake Formation centralise la sécurité et la gouvernance des services, tout en rationalisant la gestion et en réduisant les frais généraux d'exploitation. En accélérant le processus de d'intégration des données dans toute l'entreprise, d'autres initiatives en matière de données, par exemple le machine learning, commencent à générer une plus grande valeur opérationnelle. »

Kevin Davis, CTO activité AWS chez Cloudreach

Amgen

Amgen est la plus grande société de biotechnologie indépendante au monde.

« Chez Amgen, depuis plus de trois ans, nous sommes de gros utilisateurs des clusters Amazon Redshift et Amazon EMR. La configuration de contrôles de sécurité et d'accès pour chaque compte, service, utilisateur et jeu de données AWS au niveau de détail requis pourrait s'avérer fastidieuse. AWS Lake Formation rationalise le processus avec un point de contrôle central tout en nous permettant de gérer plus étroitement l'accès à nos données et leur utilisation. AWS Lake Formation nous permet de gérer les autorisations sur les objets Amazon S3 comme nous le ferions sur les données dans une base de données. Nos utilisateurs pourront trouver les données dont ils ont besoin, y accéder et les analyser avec les outils qu'ils préfèrent. Avec ce nouveau flux de travail, tout le monde peut être plus productif en utilisant les données d'Amgen. »

Kerby Johnson, responsable du produit lac de données d'entreprise chez Amgen

Alcon

Alcon est un leader mondial en matière d'innovation et de développement de produits ophtalmologiques susceptibles de changer la vie des patients.

« Comme beaucoup d'entreprises, nous avons opté pour les lacs de données pour nous affranchir des silos de données inaccessibles. Avec AWS Lake Formation, nous pouvons rapidement ajouter l'accès aux compartiments Amazon S3 existants et définir leur contenu et leur utilisation. Les données restent dans S3, mais nous en avons le contrôle total pour d'autres utilisations. »

Srinivas Ravilisetty, responsable de l'analytique informatique chez Alcon

Quantiphi

Quantiphi est un fournisseur de logiciels et services liés à l'intelligence artificielle et au Big Data qui s'est spécialisé dans la résolution de problèmes métier complexes. Quantiphi se spécialise dans la création de solutions de lacs de données et d'intelligence artificielle qui permettent aux clients d'ajouter de la valeur de manière quantifiable.

« AWS Lake Formation nous permet de fournir un lac de données sécurisé avec un accès aux données pertinentes en quelques jours. Désormais, nous pouvons offrir le meilleur des deux mondes à nos clients : une sécurité totale et un accès simplifié aux données pertinentes pour que leurs utilisateurs puissent prendre des décisions facilement. Nos clients peuvent se concentrer sur la prise de décisions commerciales plus intelligentes et axées sur l'analyse, en puisant dans une source de données puissante et centralisée. »

Arnav Gupta, responsable AWS Practice chez Quantiphi

Curvo Labs

Curvo est une entreprise qui offre des logiciels en tant que service et qui se concentre exclusivement sur la chaîne d'approvisionnement du secteur des soins de santé. Grâce à une grande expertise dans le domaine et à des pratiques de développement agiles, l'entreprise crée l'analytique, le flux de travail et l'automatisation afin de faciliter et d'accélérer la gestion des dépenses dans le secteur des soins de santé.

« La normalisation des données est une étape essentielle au processus d'amélioration des résultats des patients, car elle garantit la transparence des données de tarification de référence pour les produits cliniques et médicaux. En utilisant ML Transformations dans AWS Lake Formation, nous traitons désormais des jeux de données en quatre heures, contre une semaine auparavant, et notre niveau de précision atteint presque les 100 %. Cette vitesse et cette précision permettent à nos clients du secteur des soins de santé de réagir rapidement aux changements du marché, en fournissant davantage de soins abordables sans sacrifier la santé des patients. Nous leur fournissons en un jour ce qu'il faut entre 4 et 6 semaines à nos concurrents pour fournir. »

Nic Sagez, CTO chez Curvo

Nouveautés

date
  • date
1
Standard Product Icons (Features) Squid Ink
En savoir plus sur les fonctionnalités d'AWS Lake Formation

Découvrez-en plus sur les fonctionnalités d'AWS Lake Formation en consultant la page des fonctionnalités.

En savoir plus 
Sign up for a free account
S'inscrire pour obtenir un compte

Obtenez un accès instantané à l'offre gratuite d'AWS. 

S'inscrire 
Standard Product Icons (Start Building) Squid Ink
Commencez à créer dans la console

Commencez à créer avec AWS Lake Formation dans AWS Management Console.

Se connecter