Vidéos

Présentation technique d’Amazon EMR (50:44)
Découverte approfondie d’Amazon EMR et meilleures pratiques (49:12)

Restez informé des dernières nouveautés avec les webinaires AWS.

Comment utiliser Amazon EMR

  1. Développer votre application de traitement de données. Vous pouvez utiliser Java, Hive (un langage de type SQL), Pig (un langage de traitement de données), Cascading, Ruby, Perl, Python, R, PHP, C++, ou Node.js. Amazon EMR fournit des exemples de codes et didacticiels pour que vous soyez rapidement opérationnel.
  2. Télécharger votre application et vos données dans Amazon S3. Si vous devez télécharger un volume important de données, il peut être judicieux d'utiliser AWS Import/Export Snowball pour télécharger des données à l'aide de périphériques de stockage physiques ou AWS Direct Connect pour établir une connexion réseau dédiée de votre centre de données vers AWS. Si vous préférez, vous pouvez également écrire vos données directement dans un cluster en cours d'exécution.
  3. Configurer et lancer votre cluster. À l'aide d'AWS Management Console, de l'interface de ligne de commande AWS, des kits SDK ou des API, indiquez le nombre d'instances Amazon EC2 à mettre en service dans votre cluster, le type d'instance à utiliser (standard, mémoire élevée, CPU élevé, E/S élevées, etc.), les applications à installer (Hive, Pig, HBase, etc.), ainsi que l'emplacement de votre application et de vos données. Vous pouvez utiliser les actions de démarrage pour installer des logiciels supplémentaires ou modifier les paramètres par défaut.
  4. Surveiller le cluster (facultatif) Vous pouvez surveiller l'état et la progression du cluster à l'aide de la console de gestion, de l'interface de ligne de commande, des kits de SDK ou des API. EMR intègre la fonction Amazon CloudWatch pour la surveillance et la mise sous alarme et prend en charge les outils de surveillance populaires tels que Ganglia. Vous pouvez ajouter ou supprimer de la capacité au cluster à tout moment, afin de gérer plus ou moins de données. Pour le dépannage, vous pouvez utiliser l'interface de débogage simple de la console.
  5. Récupérer la production. Récupérez la production d'Amazon S3 ou de HDFS sur le cluster. Visualisez les données avec des outils tels que Tableau et MicroStrategy. Amazon EMR mettra fin automatiquement au cluster une fois le traitement terminé. Vous pouvez également laisser le cluster s'exécuter et lui attribuer du travail supplémentaire.

Prêt à lancer votre premier cluster ?

Cliquez ici pour lancer un cluster à l'aide de la console de gestion Amazon EMR. Sur la page Create Cluster, accédez à la configuration avancée du cluster, puis cliquez sur le bouton gris « Configure Sample Application » situé en haut à droite si vous souhaitez exécuter un exemple d'application avec des exemples de données.

Didacticiels

Spark

Cet article explique comment configurer Apache Kafka sur EC2, utiliser Spark Streaming sur EMR pour traiter les données transférées vers les sujets Apache Kafka et interroger des données en streaming à l'aide de Spark SQL sur EMR.

Découvrez comment Intent Media a utilisé Spark et Amazon EMR pour ses flux de travail de modélisation.

HBase

Apprenez à vous connecter à Phoenix en utilisant JDBC, à créer une vue sur une table HBase existante, et à créer un index secondaire pour améliorer la performance de lecture

Apprenez à lancer un cluster EMR avec HBase et à restaurer une table à partir d’un instantané dans Amazon S3

Apprenez à vous connecter à un flux de travail Hive exécuté sur Amazon Elastic MapReduce afin de créer une plateforme sécurisée et extensible permettant la génération de rapports et l’analyse.

Presto

Apprenez à configurer un cluster Presto et à utiliser Airpal pour traiter les données stockées dans S3.

Hive

Apprenez à lancer un cluster EMR avec HBase et à restaurer une table à partir d’un instantané dans Amazon S3

Apprenez à vous connecter à un flux de travail Hive exécuté sur Amazon Elastic MapReduce afin de créer une plateforme sécurisée et extensible permettant la génération de rapports et l’analyse.

Ce didacticiel présente une architecture de référence pour un pipeline de traitement des flux cohérent, évolutif et fiable basé sur Apache Flink en utilisant Amazon EMR, Amazon Kinesis, et Amazon Elasticsearch Service.

Apprenez à votre rythme grâce aux autres didacticiels.

Formation et aide

Engagements à court terme

Avez-vous besoin d'aide pour mener une démonstration de faisabilité ou ajuster vos applications EMR ? AWS dispose d'une équipe d'assistance internationale spécialisée en EMR. N'hésitez pas à nous contacter si vous souhaitez obtenir des informations supplémentaires sur les contrats de support payants à court terme (2 à 6 semaines).

Formation Big Data AWS

La formation Big Data sur AWS est conçue pour vous apprendre, via des exercices pratiques, à utiliser les solutions Amazon Web Services pour des charges de travail de Big Data. Vous découvrirez comment exécuter des tâches Amazon EMR afin de traiter des données grâce au vaste écosystème d'outils Hadoop tels que Pig et Hive. Vous apprendrez également à créer des environnements de Big Data dans le cloud en utilisant Amazon DynamoDB et Amazon Redshift, à tirer parti d'Amazon Kinesis et à appliquer au mieux les bonnes pratiques afin de concevoir des environnements de Big Data sécurisés, économiques et offrant d'excellentes performances d'analyse. Pour en savoir plus sur la formation Big Data, cliquez ici.

Formation supplémentaire

La formation « Scale Unlimited » offre une formation sur site personnalisée aux entreprises souhaitant apprendre rapidement à utiliser EMR et d'autres technologies Big Data. Pour en savoir plus, cliquez ici.

Découvrir davantage de ressources Amazon EMR

Consulter la page de ressources
Prêt à concevoir ?
Démarrez avec Amazon EMR
D'autres questions ?
Contactez-nous