Data lakes et analyse sur AWS

Le portefeuille de services les plus complet, sûr, évolutif et économique pour créer vos data lakes et solutions d'analyse.

AWS propose une suite intégrée de services fournissant tout ce dont vous avez besoin pour rapidement et facilement créer et gérer un data lake dédié à l’analyse. Les data lakes utilisant AWS peuvent gérer l'évolutivité, l'agilité et la flexibilité requises pour associer différents types de données et d'approches analytiques en vue d'obtenir des informations plus approfondies, et ce de manières dont les silos et entrepôts de données traditionnels sont incapables. AWS propose aux clients l’éventail le plus complet de services d’analyse et de machine learning pour un accès facile à toutes les données pertinentes, sans compromettre la sécurité ou la gouvernance.

Il y a plus d’organisations qui font confiance à AWS pour leurs data lakes et leurs analyses qu’à n’importe quel autre fournisseur de services. Des clients comme NASDAQ, Zillow, Yelp, iRobot et FINRA laissent AWS exécuter leurs charges de travail d’analyse commerciales critiques.

Data lakes et analyse sur AWS

Data lakes et analyse sur AWS

Pour créer vos data lakes et solutions d’analyse, AWS propose l’ensemble de services le plus complet pour déplacer, stocker et analyser vos données.

aws-datalake-diagram-simplified

Déplacement de données

Importez vos données de vos sites et en temps réel.

Data lake

Stockez en toute sécurité des gigaoctets, même des exaoctets, de tous les types de données.

Analyse

Analysez vos données grâce à la sélection la plus vaste de services d’analyse.

Machine learning

Prédisez les résultats futurs et définissez les actions permettant de réagir rapidement.

Déplacement de données

La première étape de création de data lakes sur AWS consiste à déplacer les données vers le cloud. Les limites physiques de la bande passante et des vitesses de transfert restreignent la capacité à déplacer les données à cause des perturbations majeures, des coûts élevés et du temps. Pour simplifier et assouplir le transfert de données, AWS propose l’éventail le plus large d’options de transferts de données vers le cloud.

Pour créer des tâches ETL et des ML Transforms pour votre data lake, découvrez AWS Lake Formation.

Déplacement de données sur site

AWS propose plusieurs manières de déplacer les données depuis votre centre de données vers AWS. Vous pouvez utiliser AWS Direct Connect pour établir une connexion réseau dédiée entre votre réseau et AWS. Pour déplacer des pétaoctets, voire des exaoctets, de données vers AWS à l’aide d’appareils physiques, vous pouvez utiliser AWS Snowball et AWS Snowmobile. Pour que vos applications sur site stockent directement les données sur AWS, vous pouvez utiliser AWS Storage Gateway.  

Déplacement de données en temps réel

AWS propose plusieurs façons d’ingérer en temps réel des données générées à partir de nouvelles sources, comme des sites web, des applications mobiles et des appareils connectés à Internet. Pour simplifier la capture et le chargement de données de streaming ou d’appareils IoT, vous pouvez utiliser Amazon Kinesis Data Firehose, Amazon Kinesis Video Streams et AWS IoT Core.  

Data lake

Une fois vos données préparées pour le cloud, AWS simplifie le stockage des données dans tous les formats, en toute sécurité et à grande échelle grâce à Amazon S3 et Amazon Glacier. AWS Glue crée automatiquement un catalogue unique que les utilisateurs peuvent consulter et dans lequel ils peuvent effectuer des requêtes. Cela simplifie la découverte de données pertinentes pour l’analyse.

Pour rapidement mettre en place un data lake sécurisé, apprenez-en davantage sur AWS Lake Formation.

Stockage par objet

Amazon S3

Amazon S3 est un service de stockage d’objets sûr, hautement évolutif et fiable grâce auquel l’accès aux données se fait avec une latence d’à peine une milliseconde. S3 est conçu pour stocker tous types de données de n'importe où : sites web, applications mobiles, applications d'entreprise et données de capteurs ou appareils IoT. Ce service est conçu pour stocker et récupérer n’importe quelle quantité de données avec une disponibilité sans précédent. Son architecture est pensée dès ses fondements pour fournir une durabilité de 99,999999999 % (9 neuf après la virgule). S3 Select centralise la lecture et la récupération des données, ce qui permet de réduire les temps de réponse de 400 % maximum. S3 dispose de capacités de sécurité et de conformité complètes qui répondent aux exigences des règlementations les plus strictes qui soient.  

Sauvegarde et archivage

Amazon Glacier

Amazon Glacier est un service de stockage sûr, durable et très économique pour la sauvegarde et l’archivage sur le long terme qui permet d’accéder aux données en quelques minutes. dans la même optique, Glacier Select lit et récupère uniquement les données nécessaires. Il est conçu pour offrir une durabilité de 99,999999999 % (9 neuf après la virgule) et offre des capacités de sécurité et de conformité complètes qui peuvent répondre aux exigences réglementaires les plus strictes. Les clients peuvent stocker des données à partir de 0,004 USD par gigaoctet et par mois, ce qui représente une économie significative par rapport aux solutions sur site.

Catalogue de données

AWS Glue

AWS Glue est un service entièrement géré qui propose un catalogue de données qui rend les données d’un data lake faciles à découvrir. Il permet de réaliser une procédure extract, transform and load (ETL, extraction, transformation et chargement) pour préparer les données à l’analyse. Le catalogue de données est automatiquement créé en tant que stockage de métadonnées permanent pour toutes les ressources de données, ce qui fait qu’il est possible de rechercher et requérir toutes les données d’un simple coup d’œil.

Analyse

AWS propose l’ensemble de services d’analyse de données le plus vaste et le plus économique pour exécuter un data lake. Chaque service d’analyse est spécifiquement conçu pour divers cas d’utilisation d’analyse comme l’analyse interactive, le traitement big data à l’aide d’Apache Spark et Hadoop, l’entreposage de données, l’analyse en temps réel, l’analyse opérationnelle, les tableaux de bord et les visualisations.

Pour gérer un accès sûr et autonome aux données d’un data lake pour des services d’analyse, apprenez-en davantage sur AWS Lake Formation.

Analyse interactive

Amazon Athena

Amazon Athena est un service d’analyse interactive qui facilite l'analyse de données directement dans S3 et Glacier grâce aux requêtes SQL standard. Athena est sans serveur ; il n'y a donc pas d'infrastructure à configurer ou gérer. Vous pouvez instantanément commencer à demander des données, obtenir des résultats et ne payer que les requêtes que vous exécutez. Cliquez simplement sur vos données dans Amazon S3, définissez le schéma et commencez à lancer vos requêtes à l'aide de SQL standard. La plupart des résultats sont fournis en quelques secondes.  

Traitement big data

Amazon EMR

Pour le traitement big data à l’aide d’un environnement Spark et Hadoop, Amazon EMR fournit un service géré qui permet de traiter de manière simple, rapide et économique de grandes quantités de données. Amazon EMR prend en charge 19 projets open-source différents dont Hadoop, Spark, HBase et Presto, avec des blocs-notes EMR pour l’ingénierie de données, le développement d’expertise de données et la collaboration. Chaque projet est mis à jour dans EMR dans les 30 jours qui suivent le lancement de la dernière version, ce qui vous garantit d’avoir les derniers éléments de la communauté sans rien faire.

Entreposage de données

Amazon Redshift

Pour l’entreposage de données, Amazon Redshift permet d’exécuter des requêtes analytiques complexes sur des pétaoctets de données structurées et inclut Redshift Spectrum, qui exécute des requêtes SQL directement sur des exaoctets de données structurées ou non dans S3 sans avoir à déplacer des données inutiles. Amazon Redshift coûte moins du dixième des solutions traditionnelles. Commencez petit avec un tarif à 0,25 USD par heure et développez-vous progressivement pour entreposer des pétaoctets au tarif de 1 000 USD par téraoctet et par an.

Analyses en temps réel

Amazon Kinesis

Pour l’analyse en temps réel, Amazon Kinesis simplifie la collecte, le traitement et l’analyse de données de streaming comme les données télémétrique IoT, les journaux d’application et les flux de clics de site web. Ce service permet de traiter et d'analyser des données à mesure de leur réception dans le data lake et de réagir en temps réel au lieu d'attendre que toutes les données soient collectées pour démarrer leur traitement.

Analyse opérationnelle

Amazon Elasticsearch Service

Pour l’analyse opérationnelle comme la surveillance d’application, l’analyse de journaux et de flux de clics, Amazon Elasticsearch Service vous permet de rechercher, explorer, filtrer, agréger et visualiser vos données pratiquement en temps réel. Amazon Elasticsearch Service fournit les API faciles à utiliser d’Elasticsearch et des capacités d’analyse en temps réel parallèlement à la disponibilité, l’évolutivité et la sécurité nécessaires aux tâches de production.

 

Tableaux de bord et visualisations

Amazon QuickSight

Pour les tableaux de bord et les visualisations, Amazon QuickSight propose un service d’analyse commerciale rapide et optimisé par le cloud qui simplifie la création de visualisations et de tableaux de bord riches et impressionnants auxquels il est possible d’accéder à partir de n’importe quel navigateur ou appareil mobile.

 

Machine learning

Pour les cas d’utilisation d’analyse prédictive, AWS fournit un large choix de services de machine learning, ainsi que des outils qui s’exécutent sur votre data lake sur AWS. Nos services sont le fruit de connaissances et de capacités que nous avons cultivés chez Amazon où le ML a alimenté les moteurs de recommandation, le chaîne d’approvisionnement, les prévisions, les centres d’expédition et le planning de capacité d’Amazon.com.  

Environnements et interfaces

Pour les experts du machine learning et les spécialistes des données, AWS propose les AMI AWS Deep Learning qui facilitent la création de modèles de deep learning et de clusters avec des instances ML et DL optimisées par le GPU. AWS prend en charge les principaux environnements de machine learning, notamment Apache MXNet, TensorFlow et Caffe2 pour que vous puissiez importer ou développer le modèle de votre choix. Ces capacités offrent une puissance, une vitesse et une efficacité sans précédent et dont les tâches de machine learning et de deep learning ont besoin.

Services de plate-forme

Pour les développeurs cherchant à approfondir leurs compétences en ML, Amazon SageMaker est un service de plate-forme qui simplifie la totalité du processus de création, de formation et de déploiement de modèles de ML en vous apportant tout ce dont vous avez besoin pour connecter vos données de formation, sélectionner et optimiser les meilleurs algorithme et environnement, et déployer votre modèle sur les clusters de scalabilité automatique d’Amazon EC2. SageMaker inclut également des blocs-notes Jupyter hébergés qui simplifient l'exploration et la visualisation de vos données de formation stockées dans Amazon S3.

Services applicatifs

Pour les développeurs cherchant à intégrer une fonctionnalité IA pré-conçue à leurs applications, AWS fournit des API axées sur les solutions pour la vision par ordinateur et le traitement du langage naturel. Ces services d’applications permettent aux développeurs d’ajouter l’intelligence à leurs applications sans avoir à développer ni former leurs propres modèles.

Toujours plus de data lakes et d’analyses conçus sur AWS et nulle part ailleurs

Pourquoi concevoir mes data lakes et mes analyses sur AWS ?

Choix et flexibilité

AWS propose le plus large choix d’outils et de moteurs d’analyse. Ils permettent de traiter des données grâce à des formats et des normes ouverts. Vous pouvez stocker vos données dans les formats de données standard de votre choix tels que CSV, ORC, Grok, Avro et Parquet, tout en ayant la possibilité d’effectuer les analyses de diverses manières, comme l’entreposage de données, les requêtes interactives SQL, l’analyse en temps réel et le traitement big data. La diversité de services d’analyse utilisables avec vos données dans AWS garantit que vos besoins seront satisfaits pour vos cas d’utilisation existants et à venir.

Évolutivité et disponibilité sans précédent

Amazon S3 est conçu pour stocker et récupérer n’importe quelle quantité de données avec une disponibilité sans précédent. Son architecture est pensée dès ses fondements pour fournir une durabilité de 99,999999999 % (9 neuf après la virgule). Il s’agit de la seule offre de stockage qui permet de stocker vos données sur plusieurs centres de données et dans trois zones de disponibilité d’une même région AWS, ce qui confère une résilience sans précédent aux problèmes de centres de données uniques. C’est également la seule offre qui réplique de manière fluide les données entre les régions.

Haute sécurité

S3 est la seule plate-forme de stockage cloud qui permet d’appliquer des politiques d’accès, de journal et d’audit au niveau du compte et de l’objet. Ce service propose un chiffrement automatique du côté du serveur avec des clés gérées par AWS Key Management Service (KMS), ainsi qu’un chiffrement avec des clés que vous gérez. S3 chiffre les données en transit lors de la réplication entre les régions et vous permet d’utiliser des comptes séparés pour les régions source et cible afin de protéger les données contre toute suppression interne malveillante. Pour réagir de manière proactive les premières étapes d’une attaque, Amazon Macie, un service de sécurité optimisé par le ML, surveille l'activité liée à l'accès aux données à la recherche d’anomalies et génère des alertes détaillées dès qu'un risque d'accès non autorisé ou de fuite accidentelle de données est détecté.

Rentabilité

Les data lakes créés sur AWS sont les plus rentables. Les données utilisées peu fréquemment peuvent être déplacées vers Amazon Glacier qui propose une sauvegarde et un archivage à long terme et à des tarifs très bas. Les capacités de gestion d’Amazon S3 permettent d’analyser des schémas d’accès aux objets pour déplacer des donénes rarement utilisées vers Glacier, et ce à la demande ou automatiquement, grâce à des politiques de cycle de vie. Vous pouvez commencer à établir des requêtes de données avec Amazon Athena à partir de 0,005 USD par Go de données demandées. D’autres services d’analyse et de machine learning sont tarifés selon un modèle de paiement à l’utilisation pour les ressources que vous consommez.

Performances rapides

Les services d’analyse d’AWS comme Amazon Redshift et Amazon Athena ont été conçus pour des performances de requêtes interactives prenant en charge de grands nombres de requêtes interactives simultanées. Lorsque vous exécutez le vaste portefeuille de services d’analyse et de machine learning d’AWS avec Amazon S3 Select, seuls les sous-ensembles de données requis sans des objets sont renvoyés, ce qui permet d’avoir des résultats de requête 400 % plus rapides et à bien moindre coût. Glacier Select propose des possibilités similaires qui vous permettent de récupérer plus rapidement des données, ainsi que d’étendre votre capacité analytique sur votre data lake afin d’inclure un stockage d’archive.  

 

Le réseau de partenaires le plus vaste

L’AWS Partner Network (APN) compte deux fois plus d’intégrations de partenaires que les autres services (plusieurs dizaines de milliers de partenaires), y compris des prestataires logiciels consultants et indépendants, provenant de partout dans le monde. Ce réseau de partenaires simplifie la collaboration et l’intégration de nombreux outils avec lesquels vous avez l’habitude de travailler. Les Data Lake Quick Starts, développés par les architectes et partenaires d’AWS, vous aident à créer, tester et déployer des solutions de data lake basées sur les bonnes pratiques d’AWS en matière de sécurité et de forte disponibilité, et ce en quelques étapes simples. 

 

Démarrer avec AWS

Step 1 - Sign up for an AWS account

Créer un compte AWS

Obtenez un accès instantané à l' offre gratuite d'AWS
 
icon2

Créez un data lake sécurisé en quelques jours

En savoir plus sur AWS Lake Formation

 
icon3

Commencer à créer avec AWS

en savoir plus sur ledéploiement de data lakes sur AWS

 

Démarrez avec les lacs de données sur AWS

Déployer un lac de données avec AWS Lake Formation
Vous avez d'autres questions ?
Contactez-nous