Amazon Elastic MapReduce (Amazon EMR) est un service Web qui vous permet de traiter de vastes ensembles de données de manière facile, rapide et rentable.

Amazon EMR utilise un framework à code source libre nommé Hadoop afin de distribuer vos données et leur traitement sur un cluster redimensionnable regroupant des instances Amazon EC2. Amazon EMR est utilisé pour des applications diverses et variées, notamment l'analyse des fichiers journaux, l'indexation Web, l'entreposage de données, l'apprentissage-machine, les analyses financières, les simulations scientifiques et la bioinformatique. Chaque année, les clients lancent des millions de clusters Amazon EMR.


Vous pouvez lancer un cluster Amazon EMR en quelques minutes. Vous n'avez pas à vous préoccuper de la mise en service des nœuds, ni de la mise en place et du réglage du cluster, ni de la configuration d'Hadoop. Amazon EMR prend en charge ces tâches, afin que vous puissiez vous concentrer sur vos opérations d'analyse.

Avec Amazon EMR, vous pouvez mettre en service une, des centaines, voire des milliers d'instances de calcul afin de traiter vos données à n'importe quelle échelle. Vous pouvez facilement augmenter ou diminuer le nombre d'instances, et vous ne payez qu'en fonction de votre utilisation.

Vous pouvez lancer un cluster Hadoop à 10 nœuds pour un coût aussi bas que 0,15 USD de l'heure. De plus, Amazon EMR propose une prise en charge native des instances EC2 ponctuelles et réservées ; vous pouvez donc également économiser entre 50 et 80 % sur le coût de vos instances sous-jacentes.

Vous perdez moins de temps à régler les paramètres de votre cluster et à surveiller son exécution. Amazon EMR permet un réglage d'Hadoop pour le cloud, ainsi que la surveillance de votre cluster. Les tâches ayant échoué sont réexécutées, et les instances mal réalisées sont automatiquement remplacées.

Amazon EMR configure automatiquement les paramètres du pare-feu Amazon EC2 qui contrôlent l'accès réseau aux instances, et vous pouvez lancer vos clusters dans Amazon Virtual Private Cloud (VPC), un réseau isolé de manière logique que vous définissez.

Vous disposez d'un contrôle total sur votre cluster. Vous disposez d'un accès racine à chaque instance afin de pouvoir facilement installer des applications supplémentaires et personnaliser chaque cluster. Amazon EMR prend également en charge plusieurs applications et distributions Hadoop.

Amazon EMR peut être utilisé pour analyser des données en continu, afin de segmenter les utilisateurs et de comprendre leurs préférences. Les annonceurs peuvent également analyser les parcours de navigation et les journaux d'impression publicitaire, afin de fournir des annonces plus efficaces.

Découvrez comment Razorfish utilise EMR pour ses analyses de parcours de navigation »

Amazon EMR peut être utilisé pour traiter des volumes importants de données génomiques et d'autres grands ensembles de données scientifiques, rapidement et efficacement. Les chercheurs peuvent accéder aux données hébergées gratuitement sur AWS.

Lisez-en plus sur le projet 1000 Genomes et AWS »

Amazon EMR permet de traiter les journaux générés par les applications Web et mobiles. Amazon EMR permet aux clients de transformer les péta-octets de données non structurées ou semi-structurées en informations utiles à propos de leurs applications ou de leurs utilisateurs.

Découvrez comment Yelp utilise EMR pour diriger des fonctionnalités de site Web essentielles »

Pour utiliser Amazon EMR, il vous suffit de procéder comme suit :

  1. Développer votre application de traitement de données. Vous pouvez utiliser Java, Hive (un langage de type SQL), Pig (un langage de traitement de données), Cascading, Ruby, Perl, Python, R, PHP, C++, ou Node.js. Amazon EMR fournit des exemples de codes et didacticiels pour que vous soyez rapidement opérationnel.
  2. Télécharger votre application et vos données dans Amazon S3. Si vous devez télécharger un volume important de données, il peut être judicieux d'utiliser AWS Import/Export (pour télécharger des données à l'aide de périphériques de stockage physiques) ou AWS Direct Connect (pour établir une connexion réseau dédiée de votre centre de données vers AWS). Si vous préférez, vous pouvez également écrire vos données directement dans un cluster en cours d'exécution.
  3. Configurer et lancer votre cluster. A l'aide de la console de gestion AWS, de l'interface de ligne de commande d'EMR, des kits SDK ou des API, indiquez le nombre d'instances EC2 à mettre en service dans votre cluster, le type d'instance à utiliser (standard, mémoire élevée, CPU élevé, E/S élevé, etc.), les applications à installer (Hive, Pig, HBase, etc.) ainsi que l'emplacement de votre application et de vos données. Vous pouvez utiliser les actions de démarrage pour installer des logiciels supplémentaires ou modifier les paramètres par défaut.
  4. ( Facultatif) Surveiller le cluster.Vous pouvez surveiller l'état et la progression du cluster à l'aide de la console de gestion, de l'interface de ligne de commande, des kits de SDK ou des API. EMR intègre la fonction Amazon CloudWatch pour la surveillance et la mise sous alarme et prend en charge les outils de surveillance populaires tels que Ganglia. Vous pouvez ajouter ou supprimer de la capacité au cluster à tout moment, afin de gérer plus ou moins de données. Pour le dépannage, vous pouvez utiliser l'interface de débogage simple de la console.
  5. Récupérer la production.Récupérez la production d'Amazon S3 ou de HDFS sur le cluster. Visualisez les données avec des outils tels que Tableau et MicroStrategy. AmazonEMR mettra fin automatiquement au cluster lorsque le traitement est terminé. Vous pouvez également laisser le cluster s'exécuter et lui attribuer du travail supplémentaire.

Prêt à lancer votre premier cluster ? Cliquez ici pour afficher le tutoriel de mise en route. Dans le tutoriel, vous allez créer un cluster qui comptera la fréquence des mots dans un exemple de fichier texte. Dans quelques minutes à peine, votre cluster sera prêt à fonctionner.