Passer au contenu principal

Mise en route avec Amazon EMR

Amazon EMR

Comment utiliser EMR

1. Choisissez votre modèle de déploiement EMR préféré

Amazon EMR vous permet de traiter de vastes quantités de données à l’aide d’outils open source tels qu’Apache Spark, Hive, Flink, Trino et bien d’autres. Il vous suffit de choisir votre modèle de déploiement EMR préféré :

  • EMR sans serveur : exécutez des applications sans avoir à gérer de clusters et adaptez automatiquement les ressources à la hausse ou à la baisse en fonction de votre charge de travail
  • EMR sur EC2 : pour contrôler la configuration du cluster, y compris les types d’instances et les AMI personnalisées.
  • EMR sur EKS : regroupez vos analyses avec vos autres applications basées sur Kubernetes sur un cluster Amazon EKS partagé.

2. Développement de votre application de traitement de données

Amazon EMR prend en charge un large éventail de cadres et de langages, vous permettant de tout créer, des pipelines ETL standard à la préparation de données d’IA générative à grande échelle.

Langages : utilisez Python (PySpark) pour la science des données et le machine learning, SQL (via Hive ou Trino) pour les requêtes analytiques, ou Java et Scala pour les applications Spark hautes performances.

Cadres : créez et exécutez des applications à l’aide d’Apache Spark pour le traitement de données à grande échelle, d’Apache Flink pour le streaming en temps réel, de Trino pour des requêtes SQL rapides sur plusieurs sources de données, et d’Apache Hudi ou Iceberg pour la gestion de lacs de données transactionnelles.

3. Préparez et ingérez les données

Pour commencer le traitement, vos données doivent être accessibles à Amazon EMR. Bien qu’Amazon S3 soit la couche de stockage standard pour les applications EMR, vous disposez de plusieurs méthodes haut débit pour transférer des données depuis votre environnement local ou d’autres services AWS.

  • Téléchargements directs : pour un traitement immédiat, téléchargez des objets directement vers Amazon S3 à l’aide de la console de gestion AWS, de l’interface CLI ou des SDK.
  • Connectivité haut débit : utilisez AWS Direct Connect pour contourner l’Internet public et établir une connexion réseau privée et dédiée entre votre centre de données et AWS. Cela garantit une bande passante constante et une latence réduite pour les transferts à grande échelle.
  • Streaming en temps réel : utilisez Amazon Data Firehose ou Amazon Managed Streaming for Apache Kafka (MSK) pour alimenter directement vos applications EMR en données au fur et à mesure de leur génération, permettant ainsi des analyses en temps quasi réel.
  • Intégrations zéro ETL : analysez les données provenant d’Amazon Aurora ou d’Amazon Redshift à l’aide des fonctionnalités sans extraction, transformation ni chargement (sans ETL), qui permettent à EMR d’accéder aux données opérationnelles sans avoir à construire manuellement de pipeline.
  • Accès hybride : si vos données résident dans un environnement Hadoop HDFS local, vous pouvez utiliser le connecteur S3 pour lire les données directement dans EMR ou synchroniser des jeux de données spécifiques en vue d’un traitement dans le cloud.

4. Lancement et surveillance

Amazon EMR offre une expérience de déploiement simplifiée, que vous exécutiez une tâche ponctuelle ou un pipeline de production continu.

  • Lancement via EMR Studio : ouvrez votre notebook EMR Studio et associez-le à une application sans serveur ou à un cluster EC2 existant. En un clic, vous pouvez exécuter votre code Spark ou Hive dans un environnement entièrement géré.
  • Sans serveur : si vous utilisez EMR sans serveur, soumettez votre tâche via la console, l’interface CLI ou l’API. EMR provisionne automatiquement la puissance de calcul et la mémoire exactes nécessaires, en s’adaptant pour gérer les pics de charge et en se réduisant à zéro une fois le travail terminé.
  • Lancement via SageMaker Unified Studio : au sein de SageMaker Unified Studio, vous pouvez ouvrir un notebook sans serveur et le connecter instantanément à une application EMR Serverless ou à un cluster EMR sur EC2. 

5. Surveillez et optimisez l’exécution

EMR offre une visibilité sur vos pipelines de données grâce à des outils intégrés qui vous aident à identifier les goulots d’étranglement et à optimiser automatiquement les coûts.

Surveillez la progression des tâches et l’état du cluster via la console de gestion EMR, l’AWS CLI ou les kit SDK. EMR offre une intégration native avec Amazon CloudWatch pour les métriques en temps réel, les journaux et les alertes automatisées.

Accédez à l’interface utilisateur Spark ou Tez en direct et persistante directement depuis la console. Déboguez les tâches en cours en temps réel, et même après la fin d’une tâche sans serveur, pour examiner les plans d’exécution et les DAG (graphes acycliques dirigés).

Prêt à lancer votre premier cluster ?

Cliquez ici pour lancer un cluster à l’aide de la console de gestion Amazon EMR. Sur la page Create Cluster, accédez à la configuration avancée du cluster, puis cliquez sur le bouton gris « Configure Sample Application » situé en haut à droite si vous souhaitez exécuter un exemple d’application avec des exemples de données.

Formation et aide

    Avez-vous besoin d’aide pour mener une démonstration de faisabilité ou ajuster vos applications EMR ? AWS dispose d'une équipe d'assistance internationale spécialisée en EMR. N’hésitez pas à nous contacter si vous souhaitez obtenir des informations supplémentaires sur les contrats de support payants à court terme (deux à six semaines).

    La formation big data sur AWS est conçue pour vous apprendre, via des exercices pratiques, à utiliser les solutions Amazon Web Services pour des charges de travail de big data. Vous découvrirez comment exécuter des tâches Amazon EMR afin de traiter des données à l’aide des nombreux outils Hadoop tels que Pig et Hive. Vous apprendrez également à créer des environnements de big data dans le cloud en utilisant Amazon DynamoDB et Amazon Redshift, à tirer parti d’Amazon Kinesis et à appliquer au mieux les bonnes pratiques afin de concevoir des environnements de big data sécurisés, économiques et offrant d’excellentes performances d’analyse. Pour en savoir plus sur la formation big data, cliquez ici.

    La formation « Scale Unlimited » offre une formation sur site personnalisée aux entreprises souhaitant apprendre rapidement à utiliser EMR et d’autres technologies Big Data. Pour en savoir plus, cliquez ici.