Mise en route avec Amazon EMR
Prêt à lancer votre premier cluster ?
En savoir plus
Formation et aide
-
Avez-vous besoin d’aide pour mener une démonstration de faisabilité ou ajuster vos applications EMR ? AWS dispose d'une équipe d'assistance internationale spécialisée en EMR. N’hésitez pas à nous contacter si vous souhaitez obtenir des informations supplémentaires sur les contrats de support payants à court terme (deux à six semaines).
La formation big data sur AWS est conçue pour vous apprendre, via des exercices pratiques, à utiliser les solutions Amazon Web Services pour des charges de travail de big data. Vous découvrirez comment exécuter des tâches Amazon EMR afin de traiter des données à l’aide des nombreux outils Hadoop tels que Pig et Hive. Vous apprendrez également à créer des environnements de big data dans le cloud en utilisant Amazon DynamoDB et Amazon Redshift, à tirer parti d’Amazon Kinesis et à appliquer au mieux les bonnes pratiques afin de concevoir des environnements de big data sécurisés, économiques et offrant d’excellentes performances d’analyse. Pour en savoir plus sur la formation big data, cliquez ici.
La formation « Scale Unlimited » offre une formation sur site personnalisée aux entreprises souhaitant apprendre rapidement à utiliser EMR et d’autres technologies Big Data. Pour en savoir plus, cliquez ici.
Comment utiliser EMR
1. Choisissez votre modèle de déploiement EMR préféré
Amazon EMR vous permet de traiter de vastes quantités de données à l’aide d’outils open source tels qu’Apache Spark, Hive, Flink, Trino et bien d’autres. Il vous suffit de choisir votre modèle de déploiement EMR préféré :
2. Développement de votre application de traitement de données
Amazon EMR prend en charge un large éventail de cadres et de langages, vous permettant de tout créer, des pipelines ETL standard à la préparation de données d’IA générative à grande échelle.
Langages : utilisez Python (PySpark) pour la science des données et le machine learning, SQL (via Hive ou Trino) pour les requêtes analytiques, ou Java et Scala pour les applications Spark hautes performances.
Cadres : créez et exécutez des applications à l’aide d’Apache Spark pour le traitement de données à grande échelle, d’Apache Flink pour le streaming en temps réel, de Trino pour des requêtes SQL rapides sur plusieurs sources de données, et d’Apache Hudi ou Iceberg pour la gestion de lacs de données transactionnelles.
3. Préparez et ingérez les données
Pour commencer le traitement, vos données doivent être accessibles à Amazon EMR. Bien qu’Amazon S3 soit la couche de stockage standard pour les applications EMR, vous disposez de plusieurs méthodes haut débit pour transférer des données depuis votre environnement local ou d’autres services AWS.
4. Lancement et surveillance
Amazon EMR offre une expérience de déploiement simplifiée, que vous exécutiez une tâche ponctuelle ou un pipeline de production continu.
5. Surveillez et optimisez l’exécution
EMR offre une visibilité sur vos pipelines de données grâce à des outils intégrés qui vous aident à identifier les goulots d’étranglement et à optimiser automatiquement les coûts.
Surveillez la progression des tâches et l’état du cluster via la console de gestion EMR, l’AWS CLI ou les kit SDK. EMR offre une intégration native avec Amazon CloudWatch pour les métriques en temps réel, les journaux et les alertes automatisées.
Accédez à l’interface utilisateur Spark ou Tez en direct et persistante directement depuis la console. Déboguez les tâches en cours en temps réel, et même après la fin d’une tâche sans serveur, pour examiner les plans d’exécution et les DAG (graphes acycliques dirigés).