Data lakes et analyse sur AWS

Le moyen le plus rapide d'obtenir des réponses à partir de toutes vos données et de les transmettre à tous vos utilisateurs

AWS propose une suite intégrée de services fournissant tout ce dont vous avez besoin pour créer et gérer rapidement, et facilement, un data lake dédié à l'analyse. Les data lakes utilisant AWS peuvent gérer l'évolutivité, l'agilité et la flexibilité requises pour associer différents types de données et d'approches analytiques en vue d'obtenir des informations plus approfondies, et ce de manières dont les silos et entrepôts de données traditionnels sont incapables. AWS propose aux clients l’éventail le plus complet de services d’analyse et de machine learning pour un accès facile à toutes les données pertinentes, sans compromettre la sécurité ou la gouvernance.

Il y a plus d’organisations qui font confiance à AWS pour leurs data lakes et leurs analyses qu’à n’importe quel autre fournisseur de services. Des clients comme NASDAQ, Zillow, Yelp, iRobot et FINRA laissent AWS exécuter leurs charges de travail d’analyse commerciales critiques.

Data lakes et analyse sur AWS

Data lakes et analyse sur AWS

Pour créer vos data lakes et solutions d’analyse, AWS propose l’ensemble de services le plus complet pour déplacer, stocker et analyser vos données.

aws-datalake-diagram-simplified

Déplacement de données

Importez vos données de vos sites et en temps réel.

Data lake

Stockez en toute sécurité des gigaoctets, même des exaoctets, de tous les types de données.

Analyse

Analysez vos données grâce à la sélection la plus vaste de services d’analyse.

Machine learning

Estimez les résultats futurs et définissez les actions à effectuer pour réagir rapidement.

Pourquoi concevoir mes data lakes et mes analyses dans AWS ?

Manière la plus simple de créer des data lakes

Créez un data lake sécurisé en quelques jours et non plus en plusieurs mois. Notre expérience glanée auprès de dizaines de milliers de clients nous a permis de simplifier tous les aspects du processus d'analyse des données dans le cloud. AWS Lake Formation automatise les étapes manuelles requises pour créer un lac de données et fournit un mécanisme de sécurité unique pour toutes vos données. Ainsi, vous consacrez moins de temps aux tâches complexes indifférenciées nécessaires pour construire un data lake, mais plus à explorer vos données et obtenir des réponses à vos questions les plus importantes.

Meilleures performances au moindre coût

AWS est l'outil le plus rapide et le plus rentable pour stocker et analyser des données. Amazon S3 offre cinq classes de stockage et permet la gestion automatique du cycle de vie des données. Vous payez donc uniquement ce qui est nécessaire, en fonction de l'utilisation de ces dernières. Amazon Redshift est 3 fois plus rapide que tout autre entrepôt de données s'exécutant dans le cloud, et l'est toujours davantage d'année en année. Amazon EMR constitue le moyen le plus rapide d'exécuter les charges de travail Apache Spark et Apache HIVE dans le cloud. L'intégration d'EMR à AWS permet de profiter facilement de fonctionnalités économiques, comme les instances EC2 Spot, pour réduire les coûts jusqu'à 90 %.

Exhaustivité et ouverture

Le fait de conserver toutes vos données verrouillées via un seul service d'analyse isolé ne suffit plus. Vous devez pouvoir profiter d'un ensemble d'outils et d'approches différents, comprenant SQL, R, Scala, Jupyter et Python, et ainsi obtenir les bonnes informations à l'aide de plusieurs langages. AWS fournit un ensemble complet et avancé de services d'analyse qui s'exécutent sur le data lake ouvert. De cette façon, vous avez la possibilité d'utiliser le bon outil pour la bonne tâche, sans devoir déplacer ou transformer les données en fonction de chaque approche. Tous nos services prennent en charge l'accès aux données stockées dans un magasin d'objets unique (S3) avec des API ouvertes, dans des formats ouverts (Apache Paquet, Apache ORC, Apache Avro, etc.), et en utilisant des moteurs propriétaires (Redshift, pour l'entreposage des données) et ouverts (Spark, Hive, etc.). 

Niveau de sécurité extrême

Il est essentiel de protéger vos données et de respecter les réglementations en vigueur. AWS fournit un ensemble complet d'outils encore plus avancés que le chiffrement et le contrôle des accès, comme la surveillance proactive et la gestion unifiée des politiques de sécurité. Amazon Macie permet de surveiller votre data lake pour éviter la divulgation accidentelle d'identifiants ou d'informations personnellement identifiables (PII). Amazon Inspector vous aide à mettre en place des meilleures pratiques et à identifier les problèmes de configuration. AWS Lake Formation, pour sa part, vous permet de contrôler, de manière cohérente, l'accès aux données de votre data lake dans tous les services d'analyse. 

Déplacement de données

La première étape de création de data lakes sur AWS consiste à déplacer les données vers le cloud. Les limites physiques de la bande passante et des vitesses de transfert restreignent la capacité à déplacer les données à cause des perturbations majeures, des coûts élevés et du temps. Pour simplifier et assouplir le transfert de données, AWS propose l’éventail le plus large d’options de transferts de données vers le cloud.

Pour créer des tâches ETL et des ML Transforms pour votre data lake, découvrez AWS Lake Formation.

Déplacement de données sur site

AWS propose plusieurs manières de déplacer les données depuis votre centre de données vers AWS. Vous pouvez utiliser AWS Direct Connect pour établir une connexion réseau dédiée entre votre réseau et AWS. Pour déplacer des pétaoctets, voire des exaoctets, de données vers AWS à l’aide d’appareils physiques, vous pouvez utiliser AWS Snowball et AWS Snowmobile. Pour que vos applications sur site stockent directement les données sur AWS, vous pouvez utiliser AWS Storage Gateway.  

Déplacement de données en temps réel

AWS propose plusieurs façons d’ingérer en temps réel des données générées à partir de nouvelles sources, comme des sites web, des applications mobiles et des appareils connectés à Internet. Pour simplifier la capture et le chargement de données de streaming ou d’appareils IoT, vous pouvez utiliser Amazon Kinesis Data Firehose, Amazon Kinesis Video Streams et AWS IoT Core.  

Data lake

Une fois vos données préparées pour le cloud, AWS simplifie le stockage des données dans tous les formats, en toute sécurité et à grande échelle grâce à Amazon S3 et Amazon Glacier. AWS Glue crée automatiquement un catalogue unique que les utilisateurs peuvent consulter et dans lequel ils peuvent effectuer des requêtes. L'identification de données pertinentes pour l'analyse est donc simplifiée.

Pour rapidement mettre en place un data lake sécurisé, apprenez-en davantage sur AWS Lake Formation.

Stockage par objet

Amazon S3

Amazon S3 est un service de stockage d’objets sûr, hautement évolutif et fiable grâce auquel l’accès aux données se fait avec une latence d’à peine une milliseconde. S3 est conçu pour stocker tous types de données de n'importe où : sites web, applications mobiles, applications d'entreprise et données de capteurs ou appareils IoT. Ce service est conçu pour stocker et récupérer n’importe quelle quantité de données avec une disponibilité sans précédent. Son architecture est pensée dès ses fondements pour fournir une durabilité de 99,999999999 % (9 neuf après la virgule). S3 Select centralise la lecture et la récupération des données, ce qui permet de réduire les temps de réponse de 400 % maximum. S3 dispose de capacités de sécurité et de conformité complètes qui répondent aux exigences des règlementations les plus strictes qui soient.  

Sauvegarde et archivage

Amazon Glacier

Amazon Glacier est un service de stockage sûr, durable et très économique pour la sauvegarde et l’archivage sur le long terme qui permet d’accéder aux données en quelques minutes. dans la même optique, Glacier Select lit et récupère uniquement les données nécessaires. Il est conçu pour offrir une durabilité de 99,999999999 % (9 neuf après la virgule) et offre des capacités de sécurité et de conformité complètes qui peuvent répondre aux exigences réglementaires les plus strictes. Les clients peuvent stocker des données à partir de 0,004 USD par gigaoctet et par mois, ce qui représente une économie significative par rapport aux solutions sur site.

Catalogue de données

AWS Glue

AWS Glue est un service entièrement géré qui propose un catalogue de données qui rend les données d’un data lake faciles à découvrir. Il permet de réaliser une procédure extract, transform and load (ETL, extraction, transformation et chargement) pour préparer les données à l’analyse. Le catalogue de données est automatiquement créé en tant que stockage de métadonnées permanent pour toutes les ressources de données, ce qui fait qu’il est possible de rechercher et requérir toutes les données d’un simple coup d’œil.

Analyse

AWS propose l’ensemble de services d’analyse de données le plus vaste et le plus économique pour exécuter un data lake. Chaque service d’analyse est spécifiquement conçu pour divers cas d’utilisation d’analyse comme l’analyse interactive, le traitement big data à l’aide d’Apache Spark et Hadoop, l’entreposage de données, l’analyse en temps réel, l’analyse opérationnelle, les tableaux de bord et les visualisations.

Pour gérer un accès sûr et autonome aux données d’un data lake pour des services d’analyse, apprenez-en davantage sur AWS Lake Formation.

Analyse interactive

Amazon Athena

Amazon Athena est un service d’analyse interactive qui facilite l'analyse de données directement dans S3 et Glacier grâce aux requêtes SQL standard. Athena est sans serveur ; il n'y a donc pas d'infrastructure à configurer ou gérer. Vous pouvez instantanément commencer à demander des données, obtenir des résultats et ne payer que les requêtes que vous exécutez. Cliquez simplement sur vos données dans Amazon S3, définissez le schéma et commencez à lancer vos requêtes à l'aide de SQL standard. La plupart des résultats sont fournis en quelques secondes.  

Traitement big data

Amazon EMR

Pour le traitement big data à l’aide d’un environnement Spark et Hadoop, Amazon EMR fournit un service géré qui permet de traiter de manière simple, rapide et économique de grandes quantités de données. Amazon EMR prend en charge 19 projets open-source différents dont Hadoop, Spark, HBase et Presto, avec des blocs-notes EMR pour l’ingénierie de données, le développement d’expertise de données et la collaboration. Chaque projet est mis à jour dans EMR dans les 30 jours qui suivent le lancement de la dernière version, ce qui vous garantit d’avoir les derniers éléments de la communauté sans rien faire.

Entreposage de données

Amazon Redshift

Pour l’entreposage de données, Amazon Redshift permet d’exécuter des requêtes analytiques complexes sur des pétaoctets de données structurées et inclut Redshift Spectrum, qui exécute des requêtes SQL directement sur des exaoctets de données structurées ou non dans S3 sans avoir à déplacer des données inutiles. Amazon Redshift coûte moins du dixième des solutions traditionnelles. Commencez petit avec un tarif à 0,25 USD par heure et développez-vous progressivement pour entreposer des pétaoctets au tarif de 1 000 USD par téraoctet et par an.

Analyses en temps réel

Amazon Kinesis

Pour l’analyse en temps réel, Amazon Kinesis simplifie la collecte, le traitement et l’analyse de données de streaming comme les données télémétrique IoT, les journaux d’application et les flux de clics de site web. Ce service permet de traiter et d'analyser des données à mesure de leur réception dans le data lake et de réagir en temps réel au lieu d'attendre que toutes les données soient collectées pour démarrer leur traitement.

Analyse opérationnelle

Amazon Elasticsearch Service

Pour l’analyse opérationnelle comme la surveillance d’application, l’analyse de journaux et de flux de clics, Amazon Elasticsearch Service vous permet de rechercher, explorer, filtrer, agréger et visualiser vos données pratiquement en temps réel. Amazon Elasticsearch Service fournit les API faciles à utiliser d’Elasticsearch et des capacités d’analyse en temps réel parallèlement à la disponibilité, l’évolutivité et la sécurité nécessaires aux tâches de production.

 

Tableaux de bord et visualisations

Amazon QuickSight

Pour les tableaux de bord et les visualisations, Amazon QuickSight propose un service d’analyse commerciale rapide et optimisé par le cloud qui simplifie la création de visualisations et de tableaux de bord riches et impressionnants auxquels il est possible d’accéder à partir de n’importe quel navigateur ou appareil mobile.

 

Machine learning

Pour les cas d’utilisation d’analyse prédictive, AWS fournit un large choix de services de machine learning, ainsi que des outils qui s’exécutent sur votre data lake sur AWS. Nos services sont le fruit de connaissances et de capacités que nous avons cultivés chez Amazon où le ML a alimenté les moteurs de recommandation, le chaîne d’approvisionnement, les prévisions, les centres d’expédition et le planning de capacité d’Amazon.com.  

Environnements et interfaces

Pour les experts du machine learning et les spécialistes des données, AWS propose les AMI AWS Deep Learning qui facilitent la création de modèles de deep learning et de clusters avec des instances ML et DL optimisées par le GPU. AWS prend en charge les principaux environnements de machine learning, notamment Apache MXNet, TensorFlow et Caffe2 pour que vous puissiez importer ou développer le modèle de votre choix. Ces capacités offrent une puissance, une vitesse et une efficacité sans précédent et dont les tâches de machine learning et de deep learning ont besoin.

Services de plate-forme

Pour les développeurs cherchant à approfondir leurs compétences en ML, Amazon SageMaker est un service de plate-forme qui simplifie la totalité du processus de création, de formation et de déploiement de modèles de ML en vous apportant tout ce dont vous avez besoin pour connecter vos données de formation, sélectionner et optimiser les meilleurs algorithme et environnement, et déployer votre modèle sur les clusters de scalabilité automatique d’Amazon EC2. SageMaker inclut également des blocs-notes Jupyter hébergés qui simplifient l'exploration et la visualisation de vos données de formation stockées dans Amazon S3.

Services applicatifs

Pour les développeurs cherchant à intégrer une fonctionnalité IA pré-conçue à leurs applications, AWS fournit des API axées sur les solutions pour la vision par ordinateur et le traitement du langage naturel. Ces services d’applications permettent aux développeurs d’ajouter l’intelligence à leurs applications sans avoir à développer ni former leurs propres modèles.

Toujours plus de data lakes et d'analyses sur AWS et nulle part ailleurs

Démarrer avec AWS

Step 1 - Sign up for an AWS account

Créer un compte AWS

Obtenez un accès instantané à l' offre gratuite d'AWS
 
icon2

Créez un data lake sécurisé en quelques jours

En savoir plus sur AWS Lake Formation

 
icon3

Commencer à créer avec AWS

en savoir plus sur ledéploiement de data lakes sur AWS

 

Démarrez avec les lacs de données sur AWS

Déployer un lac de données avec AWS Lake Formation
Vous avez d'autres questions ?
Contactez-nous