Stockage de lac de données sur AWS

Le stockage le plus sûr, le plus durable et le plus évolutif pour créer votre lac de données

Amazon Simple Storage Service (S3) est le service de stockage objet le plus important et le plus performant pour les données structurées et non structurées et le service de stockage de premier choix pour créer un lac de données. Avec Simple Storage Service (Amazon S3), vous pouvez créer et faire évoluer de manière rentable un lac de données de n'importe quelle taille dans un environnement sécurisé où les données sont protégées par une durabilité de 99,999999999 % (11 9s).

Avec un lac de données construit sur Simple Storage Service (Amazon S3), vous pouvez utiliser les services AWS natifs pour exécuter des applications analytiques de big data, d'intelligence artificielle (IA), de machine learning (ML), de calcul haute performance (HPC) et de traitement des données médiatiques afin de tirer des informations de vos ensembles de données non structurées. Avec Amazon FSx for Lustre, vous pouvez lancer des systèmes de fichiers pour les applications de HPC et de machine learning, et traiter des charges de travail médiatiques importantes directement à partir de votre lac de données. Vous avez également la possibilité d'utiliser vos applications analytiques, d'IA, de machine learning et de HPC préférées à partir du réseau partenaires Amazon (APN). Simple Storage Service (Amazon S3) prenant en charge un large éventail de fonctions, les responsables IT, les administrateurs de stockage et les scientifiques des données sont en mesure d'appliquer des politiques d'accès, de gérer des objets à grande échelle et d'auditer les activités dans leurs lacs de données S3.

Simple Storage Service (Amazon S3) héberge des dizaines de milliers de lacs de données pour des marques connues telles que Netflix, Airbnb, Sysco, Expedia, GE et FINRA, qui les utilisent pour évoluer en toute sécurité en fonction de leurs besoins et pour découvrir des informations commerciales chaque minute.

Stocker et analyser des données non structurées avec un lac de données S3 (1:43)

Pourquoi créer un lac de données sur Simple Storage Service (Amazon S3) ?

Simple Storage Service (Amazon S3) est conçu pour une durabilité des données de 99,999999999 % (11 9s). Avec un tel niveau de durabilité, vous pouvez vous attendre à ce que, si vous stockez 10 000 000 d'objets dans Simple Storage Service (Amazon S3), vous ne perdiez qu'un seul objet tous les 10 000 ans ! Le service crée et stocke automatiquement des copies de tous les objets S3 téléchargés sur plusieurs systèmes. Vos données sont donc disponibles quand vous en avez besoin et sont protégées contre les pannes, les erreurs et les menaces.

Infrastructure de stockage de lac de données
Sécurité dans la conception
Protégez vos données grâce à une infrastructure conçue pour les organisations les plus sensibles aux données

Capacité de mise à l'échelle à la demande
Augmentation instantanée de la capacité de stockage, sans longs cycles d'acquisition de ressources

Durable contre la défaillance d'une zone de disponibilité AWS entière
Stockage automatique de copies de données dans un minimum de trois zones de disponibilité (AZ). Pour assurer la tolérance aux pannes, les zones de disponibilité sont séparées par plusieurs kilomètres, mais pas plus de 160 km pour garantir de faibles latences.

Services AWS pour l'analytique, le HPC, l'IA, le machine learning et le traitement des données médiatiques
Utilisez les services natifs d'AWS pour exécuter des applications sur votre lac de données

Intégrations avec des fournisseurs de services tiers
Apportez vos plateformes d'analytique préférées à votre lac de données S3 à partir de l'APN.

Large éventail de fonctions de gestion des données
Une flexibilité complète pour fonctionner au niveau des objets tout en gérant à l'échelle, configurer l'accès, permettre des économies et auditer les données dans un lac de données S3.

Résolution des défis du big data grâce aux lacs de données

Les organisations de toutes tailles, dans tous les secteurs, utilisent des lacs de données pour transformer les données d'un coût qu'il faut gérer, en un actif commercial précieux. Les lacs de données sont essentiels pour donner un sens aux données au niveau de l'organisation. Les lacs de données suppriment les silos de données, ce qui facilite l'analyse de divers jeux de données, tout en assurant la sécurité des données et en intégrant le machine learning.

Dans son article intitulé « Comment Amazon résout les défis du big data avec les lacs de données », le professeur Werner Vogels, directeur technique d'AWS, explique : « L'une des principales raisons pour lesquelles les entreprises choisissent de créer des lacs de données est de briser les silos de données. Avoir des poches de données à différents endroits, contrôlées par différents groupes, obscurcit intrinsèquement les données ».

Simple Storage Service (Amazon S3) vous permet de migrer, de stocker, de gérer et de sécuriser toutes les données structurées et non structurées à une échelle illimitée, en brisant les silos de données.

Lire l'intégralité de l'article »

Composants clés d'un lac de données

Transfert de données dans le cloud

AWS propose une gamme de services de transfert de données fournissant la solution adaptée à tout projet de migration. Ce niveau de connectivité est un facteur de taille dans la migration des données et AWS dispose d'offres pour vos besoins en matière de stockage cloud hybride et de transfert de donnée en ligne et hors ligne.

Stockage hybride dans le cloud

AWS Storage Gateway est un service de stockage cloud hybride qui vous permet de connecter et d'étendre en toute simplicité vos applications sur site vers le stockage AWS. Les clients utilisent Storage Gateway pour remplacer en toute simplicité les bibliothèques de bandes par un stockage cloud, fournir des partages de fichiers reposant sur un stockage cloud ou créer un cache à faible latence pour accéder aux données dans AWS pour les applications sur site. Avec AWS Direct Connect, vous pouvez établir une connectivité privée entre AWS et votre environnement de centre de données, bureau ou colocation, ce qui permet de réduire vos coûts de réseau, d'augmenter votre débit et de fournir une expérience réseau plus homogène que les connexions Internet publiques.

Transfert de données en ligne

AWS DataSync permet de transférer facilement et efficacement des centaines de téraoctets et des millions de fichiers vers Simple Storage Service (Amazon S3), Amazon EFS ou Amazon FSx for Windows File Server, jusqu'à 10 fois plus rapidement que les outils open source. DataSync élimine ou gère automatiquement un grand nombre de tâches manuelles, comme le scripting des tâches de copie, la programmation et la surveillance des transferts, la validation des données et l'optimisation de l'utilisation du réseau. Amazon S3 Transfer Acceleration permet de transférer rapidement des fichiers sur de longues distances entre votre client et votre compartiment Simple Storage Service (Amazon S3). Amazon Kinesis et AWS IoT Core permettent de capturer et de charger de façon simple et sécurisée des données de streaming des appareils d'IoT vers Simple Storage Service (Amazon S3).

Transfert de données hors ligne

La gamme AWS Snow a été créée sur mesure pour une utilisation dans les emplacements périphériques où la capacité réseau est limitée ou inexistante et fournit des capacités de stockage et de calcul dans les environnements difficiles. Le service AWS Snowball utilise des périphériques de stockage et de calcul de périphérie robustes et portables pour la collecte, le traitement et la migration des données. Les clients peuvent envoyer le périphérique Snowball physique pour une migration des données hors ligne vers AWS. AWS Snowmobile est un service de transfert de niveau exaoctet utilisé pour le déplacement massif de données vers le cloud, y compris les vidéothèques, dépôts d'images, ou même la migration d'un centre de données complet.

En savoir plus sur les services de migration de données vers le Cloud AWS »

Utiliser les services AWS dans votre lac de données

Les clients du lac de données S3 ont accès à de nombreuses applications analytiques AWS, à des services d'IA et de machine learning et à des systèmes de fichiers haute performance. Cela signifie que vous pouvez exécuter de nombreuses charges de travail dans votre lac de données, sans traitement supplémentaire des données ni transfert vers d'autres magasins. Vous pouvez également intégrer vos outils tiers préférés d'analytique et de machine learning à votre lac de données S3. 

Créez un lac de données en quelques jours au lieu de plusieurs mois avec AWS Lake Formation

AWS Lake Formation vous permet de créer un lac de données sécurisé en quelques jours au lieu de plusieurs mois. Il suffit de définir l'emplacement des données et les politiques d'accès et de sécurité à appliquer. Lake Formation collecte ensuite les données provenant de différentes sources et les déplace dans un nouveau lac de données dans Simple Storage Service (Amazon S3). Le service nettoie, catalogue et classe les données à l'aide d'algorithmes de machine learning et vous permet de définir des politiques de contrôle d'accès. Les utilisateurs peuvent ensuite accéder à un catalogue centralisé de données qui répertorie les jeux de données disponibles et leurs conditions d'utilisation.

En savoir plus sur AWS Lake Formation et s'inscrire »

Annonce d'AWS Lake Formation (2:44)

Exécution d'applications analytiques AWS sans déplacement de données

Une fois que les données résident dans un lac de données S3, vous pouvez utiliser l'un des services analytiques spécialisés suivants pour toute une série de cas d'utilisation, de l'analyse d'ensembles de données à l'échelle du pétaoctet à l'interrogation des métadonnées d'un seul objet. Avec un lac de données S3, ces opérations peuvent être réalisées sans nécessiter de tâches Extract-transform-load (ETL) gourmandes en ressources et en temps. Vous pouvez également intégrer vos plateformes d'analytique préférées dans votre lac de données S3.

Tendances technologiques : lacs de données et analytique (9:00)
product-icon_Amazon_Athena_icon_squid_ink
Amazon Athena

Interrogez rapidement les ensembles de données de votre lac de données S3 avec des expressions SQL simples et obtenez des résultats en quelques secondes. Athena est idéal pour les requêtes ad hoc et ne nécessite pas de gestion de cluster, mais il peut également gérer des analyses complexes, telles que les grandes jointures, les fonctions de fenêtrage et les tableaux.

product-icon_Amazon_EMR_icon_squid_ink
Amazon EMR

Analysez les données S3 avec les cadres distribués open source de votre choix, comme Spark et Hadoop. Créez et mettez à l'échelle un cluster EMR en quelques minutes (sans approvisionnement de nœuds, configuration et réglage de cluster, ni configuration Hadoop) et exécutez plusieurs clusters en parallèle sur le même ensemble de données.

product-icon_AWS_Glue_icon_squid_ink
AWS Glue

Simplifiez les tâches ETL dans votre lac de données S3 pour que vos données puissent être recherchées et interrogées. En quelques clics dans la console AWS, enregistrez vos sources de données, puis AWS Glue les parcourra pour construire un catalogue de données à l'aide de métadonnées (pour les définitions de tables et les schémas).

REDSHIFT SPECTRUM
Amazon Redshift Spectrum

Exécutez des requêtes rapides et complexes à l'aide d'expressions SQL sur des exaoctets de données S3 sans passer par Redshift. Vous pouvez faire fonctionner plusieurs clusters en parallèle sur les mêmes jeux de données. Les clients existants de Redshift peuvent utiliser cette fonctionnalité pour étendre l'analytique à leurs données non structurées stockées dans Simple Storage Service (Amazon S3).


Lancez des tâches d'IA et de machine learning avec vos données stockées dans S3

Vous pouvez lancer rapidement des services AWS d'IA tels que Amazon Comprehend, Amazon Forecast, Amazon Personalize et Amazon Rekognition pour découvrir des informations à partir de vos jeux de données non structurés, obtenir des prévisions précises, créer des machines de recommandation et analyser des images et des vidéos stockées dans S3. Vous pouvez également déployer Amazon Sagemaker pour créer, former et déployer rapidement des modèles de machine learning avec vos jeux de données stockés dans S3.


Interroger rapidement les données sur place avec S3 Select

S3 Select permet aux applications de décharger la lourde charge du filtrage et de l'accès aux données à l'intérieur des objets vers S3. Avec S3 Select, vous pouvez interroger les métadonnées d'un objet sans déplacer l'objet vers un autre magasin de données. En réduisant le volume des données qui doivent être chargées et traitées par vos applications, S3 Select peut améliorer jusqu'à 400 % les performances de la plupart des applications qui accèdent fréquemment aux données de S3 et réduire les coûts d'interrogation jusqu'à 80 %.

Vous pouvez utiliser S3 Select avec Spark, Hive et Presto dans Amazon EMR, Amazon Athena, Amazon Redshift, ainsi que les partenaires APN.

En savoir plus sur S3 Select »

Interroger les données en place avec S3 Select (3:51)

Connectez les données aux systèmes de fichiers pour des charges de travail à haute performance

Amazon FSx for Lustre fournit un système de fichiers haute performance qui fonctionne nativement avec votre lac de données S3 et qui est optimisé pour le traitement rapide de charges de travail telles que le machine learning, le calcul haute performance (HPC), le traitement vidéo, la modélisation financière et l'Electronic Design Automation (EDA). En quelques minutes, vous pouvez lancer un système de fichiers offrant une latence d'accès inférieure à la milliseconde à vos données S3 et vous permettant de lire et d'écrire des données à des vitesses pouvant atteindre des centaines de gigaoctets par seconde (Go/s) de débit et des millions d'entrées/sorties par seconde (IOPS). Lorsqu'il est lié à un compartiment S3, un système de fichiers FSx for Lustre présente de manière transparente les objets S3 en tant que fichiers et vous permet de réécrire les résultats sur S3.

En savoir plus sur Amazon FSx for Lustre »

Introduction à Amazon FSx for Lustre (45:48)

Gérez votre lac de données de manière rentable grâce aux fonctions S3

Avec un large éventail de fonctions, Simple Storage Service (Amazon S3) est le service idéal pour créer (ou restructurer la plateforme) et gérer un lac de données de toute taille et de tout objectif. C'est le seul service de stockage cloud qui vous permet de gérer les données au niveau des objets, des compartiments et des comptes, d'apporter des modifications à des dizaines, voire des milliards d'objets en quelques clics, de configurer des politiques d'accès aux données granulaires, de réaliser des économies en stockant des objets dans de nombreuses classes de stockage et d'auditer toutes les activités de vos ressources S3.

Gérez les données à tous les niveaux de votre lac de données

Simple Storage Service (Amazon S3) vous permet de gérer les données avec une granularité au niveau des objets, ainsi qu'au niveau des compartiments et des comptes. Vous pouvez ajouter des identifications de métadonnées à un objet et les utiliser pour organiser les données de la manière qui convient à votre entreprise. Vous pouvez également organiser les objets par préfixes et par compartiments. Grâce à ces capacités, il est possible de pointer rapidement vers un objet ou un groupe d'objets pour les répliquer entre régions, en restreindre l'accès, les transférer vers des classes de stockage moins coûteuses, entre autres tâches.

Agissez sur des milliards d'objets en quelques clics

Avec S3 Batch Operations, vous pouvez agir sur des milliards d'objets en une seule requête API ou en quelques clics dans la console de gestion S3, et effectuer un audit de la progression de vos requêtes. Modifiez les propriétés et les métadonnées des objets, copiez les objets entre les compartiments, remplacez les jeux de balises, configurez les contrôles d'accès, restaurez les archives à partir de S3 Glacier et invoquez les fonctions AWS Lambda : tout cela en quelques minutes au lieu de plusieurs mois.

Configurer des politiques d'accès finement ajustées aux données sensibles

Utilisez des politiques de compartiment, des identifications d'objets et des listes de contrôle d'accès (ACL) pour limiter l'accès à des compartiments et des objets spécifiques. Vous pouvez également utiliser AWS Identity and Access Management pour définir l'accès des utilisateurs au sein d'un compte AWS. Les organisations qui ont besoin de bloquer toutes les demandes d'accès à leurs données peuvent configurer S3 Block Public Access pour appliquer une politique de « non accès public » pour un compartiment spécifique d'objets ou un compte AWS entier.

Stockage rentable d'objets à travers les classes de stockage S3

Tous les clients de S3 peuvent stocker des données dans six classes de stockage distinctes, conçues pour répondre à différents besoins d'accès à des coûts correspondants. Utilisez l'analyse des classes de stockage S3 pour connaître les modèles d'accès à vos données. Ensuite, configurez des politiques de cycle de vie pour transférer les objets moins fréquemment utilisés vers des classes moins coûteuses ou les archiver dans S3 Glacier ou S3 Glacier Deep Archive pour réaliser de grandes économies.

Audit de toutes les demandes d'accès aux ressources S3 et autres activités

Grâce aux outils de création de rapports S3, découvrez rapidement qui demande l'accès à quelles données et à partir de quel endroit, auditez les métadonnées des objets (telles que la classe de stockage, la date de conservation, l'unité commerciale et l'état de chiffrement), surveillez l'utilisation et les coûts, découvrez les modèles d'accès, entre autres activités liées à vos ressources S3. Grâce à ces informations, apportez des modifications pour optimiser votre lac de données ainsi que les applications qui en dépendent, et réduisez les coûts.

Plus de lacs de données créés sur AWS que nulle part ailleurs

Prêt à vous lancer ?

En savoir plus sur Simple Storage Service (Amazon S3)
Commencez à utiliser Simple Storage Service (Amazon S3)
Créer un compte AWS
Créer un compte AWS
Obtenez un accès instantané à l' offre gratuite d'AWS »
Consultez le guide de déploiement des lacs de données
Déployer un lac de données sur AWS

Commencez à créer votre lac de données sur Simple Storage Service (Amazon S3)

Créer un lac de données
Vous avez d'autres questions ?
Nous contacter