Amazon Elastic MapReduce (Amazon EMR) est un service Web qui vous permet de traiter de vastes ensembles de données de manière simple, rapide et rentable.

Amazon EMR simplifie le traitement de Big Data, en fournissant un framework Hadoop géré qui vous permet de distribuer et de traiter de manière simple, rapide et rentable, de grandes quantités de données à travers vos instances Amazon EC2 dynamiquement évolutives. Vous pouvez également exécuter d'autres frameworks distribués courants tels qu'Apache Spark et Presto dans Amazon EMR, et interagir avec les données d'autres magasins de données AWS tels qu'Amazon S3 et Amazon DynamoDB.

Amazon EMR gère vos cas d'utilisation de Big Data de façon sûre et fiable, tels que l'analyse des journaux, l'indexation Web, l'entreposage de données, l'apprentissage machine, l'analyse financière, la simulation scientifique et la recherche bio-informatique.

Introduction à Amazon EMR (3:06)

thumb-S6Ja55n-o0M-3

Cliquez pour agrandir

Vitesse de publication des versions d'Amazon EMR

Vitesse de publication des versions d'Amazon EMR

Grâce au contrôle de version sur Amazon EMR, vous pouvez facilement sélectionner et utiliser les derniers projets open source dans votre cluster EMR, notamment des applications dans les écosystèmes Apache Hadoop et Spark.  Le logiciel est installé et configuré par Amazon EMR. Vous consacrez donc moins de temps aux tâches administratives et pouvez ainsi vous concentrer sur la valorisation de vos données.


Utilisation simple

Vous pouvez lancer un cluster Amazon EMR en quelques minutes. Vous n'avez pas à vous préoccuper de la mise en service des nœuds, ni de la mise en place et du réglage du cluster, ni de la configuration d'Hadoop. Amazon EMR prend en charge ces tâches, afin que vous puissiez vous concentrer sur vos opérations d'analyse.

Faible coût

La tarification d'Amazon EMR est simple et prévisible : l'utilisation de chaque instance vous est facturée à l'heure. Vous pouvez lancer un cluster Hadoop à 10 nœuds pour un coût aussi bas que 0,15 USD de l'heure. De plus, Amazon EMR propose une prise en charge native des instances EC2 ponctuelles et réservées, vous pouvez donc également économiser entre 50 et 80 % sur le coût de vos instances sous-jacentes.

Elasticité

Avec Amazon EMR, vous pouvez mettre en service une, des centaines, voire des milliers d'instances de calcul afin de traiter vos données à n'importe quelle échelle. Vous pouvez facilement augmenter ou diminuer le nombre d'instances et vous ne payez de frais qu'en fonction de votre utilisation.

Fiabilité

Vous perdez moins de temps à régler les paramètres de votre cluster et à surveiller son exécution. Amazon EMR permet un réglage d'Hadoop pour le cloud, ainsi que la surveillance de votre cluster. Les tâches ayant échoué sont réexécutées, et les instances aux performances insatisfaisantes sont automatiquement remplacées.

Sécurité

Amazon EMR configure automatiquement les paramètres du pare-feu Amazon EC2 qui contrôlent l'accès réseau aux instances, et vous pouvez lancer vos clusters dans Amazon Virtual Private Cloud (VPC), un réseau isolé de manière logique que vous définissez.  Pour les objets stockés dans Amazon S3, vous pouvez utiliser le chiffrement côté serveur ou le chiffrement côté client Amazon S3 avec le système EMRFS à l'aide d'AWS Key Management Service ou de clés gérées par le client.

Sécurité

Vous disposez d'un contrôle total sur votre cluster. Vous disposez d'un accès racine à chaque instance afin de pouvoir facilement installer des applications supplémentaires et personnaliser chaque cluster. Amazon EMR prend également en charge plusieurs applications et distributions Hadoop.

Amazon EMR peut être utilisé pour analyser des données en continu, afin de segmenter les utilisateurs et de comprendre leurs préférences. Les annonceurs peuvent également analyser les parcours de navigation et les journaux d'impression publicitaire, afin de fournir des annonces plus efficaces.

Découvrez comment Razorfish utilise EMR pour ses analyses de parcours de navigation »

Amazon EMR peut être utilisé pour traiter des volumes importants de données génomiques et d'autres grands ensembles de données scientifiques, rapidement et efficacement. Les chercheurs peuvent accéder aux données hébergées gratuitement sur AWS.

Lisez-en plus sur le projet 1000 Genomes et AWS »

Amazon EMR permet de traiter les journaux générés par les applications Web et mobiles. Amazon EMR permet aux clients de transformer les pétaoctets de données non structurées ou semi-structurées en informations utiles à propos de leurs applications ou de leurs utilisateurs.

Découvrez comment Yelp utilise EMR pour diriger des fonctionnalités de site Web essentielles »

Prêt à lancer votre premier cluster ? Cliquez ici pour afficher le tutoriel de mise en route. Dans le tutoriel, vous allez créer un cluster qui comptera la fréquence des mots dans un exemple de fichier texte. Dans quelques minutes à peine, votre cluster sera prêt à fonctionner.