Amazon EMR

Exécutez et dimensionnez facilement les frameworks Apache Hadoop, Spark, HBase, Presto, Hive et d'autres frameworks de Big Data

Amazon EMR fournit un framework Hadoop qui permet de traiter de manière simple, rapide et économique de grandes quantités de données sur des instances Amazon EC2 dynamiquement évolutives. Vous pouvez également exécuter d'autres frameworks distribués courants tels qu'Apache Spark, HBase, Presto et Flink dans Amazon EMR et interagir avec les données d'autres magasins de données AWS comme Amazon S3 et Amazon DynamoDB.

Amazon EMR gère en toute sécurité et fiabilité un large éventail de cas d'utilisation de Big Data, tels que l'analyse des journaux, l'indexation Web, les transformations de données (ETL), le Machine Learning, l'analyse financière, la simulation scientifique et la recherche bio-informatique.

Présentation d'Amazon EMR (3:06)

Avantages

Simple d'utilisation

Vous pouvez lancer un cluster Amazon EMR en quelques minutes. Vous n'avez pas à vous préoccuper de la mise en service des nœuds, ni de la mise en place et du réglage du cluster, ni de la configuration d'Hadoop. Amazon EMR prend en charge ces tâches, afin que vous puissiez vous concentrer sur vos opérations d'analyse.

Faible coût

La tarification d'Amazon EMR est simple et prévisible : vous payez à la seconde ce que vous utilisez, avec un forfait d'une minute minimum. Vous pouvez lancer un cluster Hadoop à 10 nœuds pour un coût aussi bas que 0,15 USD de l'heure. De plus, Amazon EMR propose une prise en charge native des instances Spot et réservées Amazon EC2 ; vous pouvez donc également économiser entre 50 et 80 % sur le coût de vos instances sous-jacentes.

Elastic

Avec Amazon EMR, vous pouvez mettre en service une instance ou des centaines, voire des milliers d'instances de calcul afin de traiter vos données à n'importe quelle échelle. Vous pouvez facilement augmenter ou diminuer le nombre d'instances, aussi bien manuellement qu'à l'aide de l'option Auto Scaling, et vous ne payez qu'en fonction de votre utilisation.

Fiable

Vous perdez moins de temps à régler les paramètres de votre cluster et à surveiller son exécution. Amazon EMR garantit un réglage d'Hadoop pour le cloud, ainsi que la surveillance de votre cluster. Les tâches ayant échoué sont réexécutées, et les instances aux performances insatisfaisantes sont automatiquement remplacées.

Sécurisé

Amazon EMR configure automatiquement les paramètres du pare-feu Amazon EC2 qui contrôlent l'accès réseau aux instances, et vous pouvez lancer vos clusters dans Amazon Virtual Private Cloud (VPC), un réseau isolé de manière logique que vous définissez. Pour les objets stockés dans Amazon S3, vous pouvez utiliser le chiffrement côté serveur ou le chiffrement côté client Amazon S3 avec le système EMRFS à l'aide d'AWS Key Management Service ou de clés gérées par le client. Vous pouvez également activer en toute simplicité d'autres options de chiffrement et d'authentification avec Kerberos.

Flexible

Vous disposez d'un contrôle total sur votre cluster. Vous disposez d'un accès racine à chaque instance afin de pouvoir facilement installer des applications supplémentaires et personnaliser chaque cluster par des actions d'amorçage. Vous pouvez également lancer des clusters Amazon EMR avec des AMI Linux Amazon personnalisées.

Cas d'utilisation

Analyse des parcours de navigation

Amazon EMR permet d'analyser les données de parcours de navigation afin de segmenter les utilisateurs, de comprendre leurs préférences et de proposer des publicités plus efficaces.

Découvrez comment Razorfish utilise EMR pour ses analyses de parcours de navigation »

Analyses en temps réel

Utilisez et traitez des données en temps réel depuis Amazon Kinesis, Apache Kafka ou d'autres flux de données avec Spark Streaming sur Amazon EMR. Effectuez des analyses en continu en profitant d'une tolérance élevée aux pannes et écrivez les résultats sur Amazon S3 ou sur le système HDFS.

Découvrez comment Hearst utilise Spark Streaming »

Analyse des journaux

Amazon EMR permet de traiter les journaux générés par les applications Web et mobiles. Amazon EMR permet aux clients de transformer les pétaoctets de données non structurées ou semi-structurées en informations utiles à propos de leurs applications ou de leurs utilisateurs.

Extraction, transformation et chargement (ETL)

Amazon EMR permet d'exécuter de manière rapide et économique des charges de travail de transformation de données (ETL) telles que le tri, l'agrégation et la liaison, sur de grands ensembles de données.

Découvrez comment Redfin utilise les clusters EMR transitoires pour l'ETL »

Analyses prédictives

Apache Spark sur Amazon EMR comprend la bibliothèque MLlib pour des algorithmes de Machine Learning évolutifs. Vous pouvez également utiliser vos propres bibliothèques. En stockant des ensembles de données en mémoire, Spark peut offrir d'excellentes performances pour les charges de travail de Machine Learning courantes.

Découvrez comment Intent Media utilise Spark MLib »

Génomique

Amazon EMR peut être utilisé de manière rapide et efficace pour traiter des volumes importants de données génomiques et d'autres grands ensembles de données scientifiques. Les chercheurs peuvent accéder aux données hébergées gratuitement sur AWS.

Découvrez Apache Spark et la médecine de précision »

Études de cas

Démarrer avec AWS

icon1

Créez un compte AWS

Obtenez un accès instantané à l’ offre gratuite d'AWS.
icon2

Apprenez-en plus avec les didacticiels de 10 minutes

Explorez et apprenez avec des didacticiels simples.
icon3

Commencer à créer avec AWS

Commencez à créer avec des guides détaillés pour vous aider à lancer votre projet AWS.

En savoir plus sur Amazon EMR

Consultez la page des fonctionnalités
Prêt à concevoir ?
Démarrez avec Amazon EMR
D'autres questions ?
Contactez-nous