Vidéo : A Technical Introduction to Amazon EMR (AWS re:Invent, octobre 2015, durée totale : 50 minutes)

Amazon EMR fournit un framework géré permettant d'exécuter les frameworks de traitement de données tels qu'Apache Hadoop, Apache Spark et Presto sur AWS, le tout de façon simple, économique et sécurisée. Dans cette présentation, vous découvrirez les principes de conception clés sous-jacents à l'exécution de ces frameworks dans le cloud, ainsi que l'ensemble de fonctionnalités proposées par Amazon EMR. Nous abordons les avantages liés au découplage du calcul et du stockage, ainsi que les stratégies permettant de tirer parti des possibilités de mise à l'échelle et de parallélisme offertes par le cloud, tout en réduisant les coûts. En outre, vous pourrez écouter l'ingénieur logiciel senior d'AOL s'exprimer sur la façon dont son équipe a utilisé ces stratégies pour migrer ses charges de travail Hadoop dans le cloud AWS, ainsi sur que les enseignements tirés de cette procédure.

 

Vidéo : Amazon EMR, Deep Dive and Best Practices (AWS re:Invent, octobre 2015, durée totale : 49 minutes)

Dans cette présentation, nous vous faisons découvrir des modèles de conception d'Amazon EMR tels que l'utilisation d'Amazon S3 au lieu de HDFS, permettant de tirer parti des clusters courte et longue durée, ainsi que d'autres bonnes pratiques liées à l'architecture d'Amazon EMR. Nous évoquons les méthodes permettant de dimensionner votre cluster vers le haut ou vers le bas de façon dynamique, et vous présentons les techniques de personnalisation de votre cluster. Nous partageons également de bonnes pratiques permettant de préserver la rentabilité de votre cluster Amazon EMR. Enfin, nous approfondissons certaines des fonctionnalités récemment lancées afin de vous tenir informé de nos dernières nouveautés.

  1. Développer votre application de traitement de données. Vous pouvez utiliser Java, Hive (un langage de type SQL), Pig (un langage de traitement de données), Cascading, Ruby, Perl, Python, R, PHP, C++, ou Node.js. Amazon EMR fournit des exemples de codes et didacticiels pour que vous soyez rapidement opérationnel.
  2. Télécharger votre application et vos données dans Amazon S3. Si vous devez télécharger un volume important de données, il peut être judicieux d'utiliser AWS Import/Export Snowball pour télécharger des données à l'aide de périphériques de stockage physiques ou AWS Direct Connect pour établir une connexion réseau dédiée de votre centre de données vers AWS. Si vous préférez, vous pouvez également écrire vos données directement dans un cluster en cours d'exécution.
  3. Configurer et lancer votre cluster. À l'aide d'AWS Management Console, de l'interface de ligne de commande AWS, des kits SDK ou des API, indiquez le nombre d'instances Amazon EC2 à mettre en service dans votre cluster, le type d'instance à utiliser (standard, mémoire élevée, CPU élevé, E/S élevées, etc.), les applications à installer (Hive, Pig, HBase, etc.), ainsi que l'emplacement de votre application et de vos données. Vous pouvez utiliser les actions de démarrage pour installer des logiciels supplémentaires ou modifier les paramètres par défaut.
  4. Modifier le cluster (facultatif) Vous pouvez surveiller l'état et la progression du cluster à l'aide de la console de gestion, de l'interface de ligne de commande, des kits de SDK ou des API. EMR intègre la fonction Amazon CloudWatch pour la surveillance et la mise sous alarme et prend en charge les outils de surveillance populaires tels que Ganglia. Vous pouvez ajouter ou supprimer de la capacité au cluster à tout moment, afin de gérer plus ou moins de données. Pour le dépannage, vous pouvez utiliser l'interface de débogage simple de la console.
  5. Récupérer la production. Récupérez la production d'Amazon S3 ou de HDFS sur le cluster. Visualisez les données avec des outils tels que Tableau et MicroStrategy. AmazonEMR mettra fin automatiquement au cluster lorsque le traitement est terminé. Vous pouvez également laisser le cluster s'exécuter et lui attribuer du travail supplémentaire.

Prêt à lancer votre premier cluster ?

Cliquez ici pour lancer un cluster à l'aide de la console de gestion Amazon EMR. Sur la page Create Cluster, accédez à la configuration avancée du cluster, puis cliquez sur le bouton gris « Configure Sample Application » situé en haut à droite si vous souhaitez exécuter un exemple d'application avec des exemples de données.

Un tutoriel détaillé est disponible ici. Ce tutoriel vous permet de créer un cluster qui indique le nombre d'occurrences de mots spécifiques dans un fichier texte.

Démarrez avec Amazon EMR

Créez un compte gratuit

Avez-vous besoin d'aide ? Demandez-nous !

Avez-vous besoin d'aide pour mener une démonstration de faisabilité ou ajuster vos applications EMR ? AWS dispose d'une équipe d'assistance internationale spécialisée en EMR.  N'hésitez pas à nous contacter si vous souhaitez obtenir des informations supplémentaires sur les contrats de support payants à court terme (2 à 6 semaines).

La formation Big Data sur AWS est conçue pour vous apprendre, via des exercices pratiques, à utiliser les solutions Amazon Web Services pour des charges de travail de Big Data. Vous découvrirez comment exécuter des tâches Amazon EMR afin de traiter des données grâce au vaste écosystème d'outils Hadoop tels que Pig et Hive. Vous apprendrez également à créer des environnements de Big Data dans le cloud en utilisant Amazon DynamoDB et Amazon Redshift, à tirer parti d'Amazon Kinesis et à appliquer au mieux les bonnes pratiques afin de concevoir des environnements de Big Data sécurisés, économiques et offrant d'excellentes performances d'analyse.  Pour en savoir plus sur la formation Big Data, cliquez ici.

Si vous envisagez de traiter plus de 1 To par jour, vous pourrez peut-être participer au stage intensif « EMR Bootcamp ». Il s'agit d'un atelier sur site de démonstration de faisabilité et de transfert de connaissances dirigé par un architecte de solution AWS spécialisé en application EMR.  Pour en savoir plus, cliquez ici ou contactez-nous.

La formation « Scale Unlimited » offre une formation sur site personnalisée aux entreprises souhaitant apprendre rapidement à utiliser EMR et d'autres technologies Big Data.  Pour en savoir plus, cliquez ici.