Amazon Elastic MapReduce (Amazon EMR) est un service Web qui vous permet de traiter de vastes ensembles de données de manière simple, rapide et rentable.

Amazon EMR simplifie le traitement de Big Data, en fournissant un framework Hadoop géré qui vous permet de distribuer et de traiter de manière simple, rapide et rentable, de grandes quantités de données à travers vos instances Amazon EC2 dynamiquement évolutives. Vous pouvez également exécuter d'autres frameworks distribués courants tels que Spark et Presto dans Amazon EMR, et interagir avec les données d'autres magasins de données AWS tels qu'Amazon S3 et Amazon DynamoDB.

Amazon EMR gère vos cas d'utilisation de Big Data de façon sûre et fiable, tels que l'analyse des journaux, l'indexation Web, l'entreposage de données, l'apprentissage machine, l'analyse financière, la simulation scientifique et la recherche bio-informatique.

Introduction à Amazon EMR (3:06)

thumb-S6Ja55n-o0M-3

Premiers pas avec Amazon EMR

Connectez-vous ou créez un compte AWS

Si vous avez besoin de traiter de gros volumes de données, des remises pourront vous être accordées.

Il est également possible de payer d'avance afin de pouvoir utiliser EMR sans restrictions pendant 12 mois.

Pour en savoir plus, n'hésitez pas à nous contacter.


Utilisation simple

Vous pouvez lancer un cluster Amazon EMR en quelques minutes. Vous n'avez pas à vous préoccuper de la mise en service des nœuds, ni de la mise en place et du réglage du cluster, ni de la configuration d'Hadoop. Amazon EMR prend en charge ces tâches, afin que vous puissiez vous concentrer sur vos opérations d'analyse.

Faible coût

La tarification d'Amazon EMR est simple et prévisible : l'utilisation de chaque instance vous est facturée à l'heure. Vous pouvez lancer un cluster Hadoop à 10 nœuds pour un coût aussi bas que 0,15 USD de l'heure. De plus, Amazon EMR propose une prise en charge native des instances EC2 ponctuelles et réservées ; vous pouvez donc également économiser entre 50 et 80 % sur le coût de vos instances sous-jacentes.

Elasticité

Avec Amazon EMR, vous pouvez mettre en service une, des centaines, voire des milliers d'instances de calcul afin de traiter vos données à n'importe quelle échelle. Vous pouvez facilement augmenter ou diminuer le nombre d'instances, et vous ne payez qu'en fonction de votre utilisation.

Fiabilité

Vous perdez moins de temps à régler les paramètres de votre cluster et à surveiller son exécution. Amazon EMR permet un réglage d'Hadoop pour le cloud, ainsi que la surveillance de votre cluster. Les tâches ayant échoué sont réexécutées, et les instances mal réalisées sont automatiquement remplacées.

Sécurité

Amazon EMR configure automatiquement les paramètres du pare-feu Amazon EC2 qui contrôlent l'accès réseau aux instances, et vous pouvez lancer vos clusters dans Amazon Virtual Private Cloud (VPC), un réseau isolé de manière logique que vous définissez.  Pour les objets stockés dans Amazon S3, vous pouvez utiliser le chiffrement côté serveur ou le chiffrement côté client Amazon S3 avec le système EMRFS à l'aide d'AWS Key Management Service ou de clés gérées par le client.

Sécurité

Vous disposez d'un contrôle total sur votre cluster. Vous disposez d'un accès racine à chaque instance afin de pouvoir facilement installer des applications supplémentaires et personnaliser chaque cluster. Amazon EMR prend également en charge plusieurs applications et distributions Hadoop.

Amazon EMR peut être utilisé pour analyser des données en continu, afin de segmenter les utilisateurs et de comprendre leurs préférences. Les annonceurs peuvent également analyser les parcours de navigation et les journaux d'impression publicitaire, afin de fournir des annonces plus efficaces.

Découvrez comment Razorfish utilise EMR pour ses analyses de parcours de navigation »

Amazon EMR peut être utilisé pour traiter des volumes importants de données génomiques et d'autres grands ensembles de données scientifiques, rapidement et efficacement. Les chercheurs peuvent accéder aux données hébergées gratuitement sur AWS.

Lisez-en plus sur le projet 1000 Genomes et AWS »

Amazon EMR permet de traiter les journaux générés par les applications Web et mobiles. Amazon EMR permet aux clients de transformer les péta-octets de données non structurées ou semi-structurées en informations utiles à propos de leurs applications ou de leurs utilisateurs.

Découvrez comment Yelp utilise EMR pour diriger des fonctionnalités de site Web essentielles »

Pour utiliser Amazon EMR, il vous suffit de procéder comme suit :

  1. Développer votre application de traitement de données. Vous pouvez utiliser Java, Hive (un langage de type SQL), Pig (un langage de traitement de données), Cascading, Ruby, Perl, Python, R, PHP, C++, ou Node.js. Amazon EMR fournit des exemples de codes et didacticiels pour que vous soyez rapidement opérationnel.
  2. Télécharger votre application et vos données dans Amazon S3. Si vous devez télécharger un volume important de données, il peut être judicieux d'utiliser AWS Import/Export (pour télécharger des données à l'aide de périphériques de stockage physiques) ou AWS Direct Connect (pour établir une connexion réseau dédiée de votre centre de données vers AWS). Si vous préférez, vous pouvez également écrire vos données directement dans un cluster en cours d'exécution.
  3. Configurer et lancer votre cluster. A l'aide de la console de gestion AWS, de l'interface de ligne de commande d'EMR, des kits SDK ou des API, indiquez le nombre d'instances EC2 à mettre en service dans votre cluster, le type d'instance à utiliser (standard, mémoire élevée, CPU élevé, E/S élevé, etc.), les applications à installer (Hive, Pig, HBase, etc.) ainsi que l'emplacement de votre application et de vos données. Vous pouvez utiliser les actions de démarrage pour installer des logiciels supplémentaires ou modifier les paramètres par défaut.
  4. ( Facultatif) Surveiller le cluster.Vous pouvez surveiller l'état et la progression du cluster à l'aide de la console de gestion, de l'interface de ligne de commande, des kits de SDK ou des API. EMR intègre la fonction Amazon CloudWatch pour la surveillance et la mise sous alarme et prend en charge les outils de surveillance populaires tels que Ganglia. Vous pouvez ajouter ou supprimer de la capacité au cluster à tout moment, afin de gérer plus ou moins de données. Pour le dépannage, vous pouvez utiliser l'interface de débogage simple de la console.
  5. Récupérer la production.Récupérez la production d'Amazon S3 ou de HDFS sur le cluster. Visualisez les données avec des outils tels que Tableau et MicroStrategy. AmazonEMR mettra fin automatiquement au cluster lorsque le traitement est terminé. Vous pouvez également laisser le cluster s'exécuter et lui attribuer du travail supplémentaire.

Prêt à lancer votre premier cluster ? Cliquez ici pour afficher le tutoriel de mise en route. Dans le tutoriel, vous allez créer un cluster qui comptera la fréquence des mots dans un exemple de fichier texte. Dans quelques minutes à peine, votre cluster sera prêt à fonctionner.