Amazon EMR

Exécutez et mettez à l'échelle facilement les cadres Apache Spark, Hive, Presto et d'autres cadres de Big Data.

Amazon EMR est une plateforme leader de Big Data dans le cloud dédiée au traitement de grandes quantités de données à l'aide d'outils à code source libre tels que Apache Spark, Apache Hive, Apache HBase, Apache Flink, Apache Hudi et Presto. Amazon EMR facilite la mise en place, l'exploitation et la mise à l'échelle de vos environnements de Big Data en automatisant des tâches fastidieuses comme l'approvisionnement en capacité et le réglage des clusters. EMR vous permet d'exécuter des analyses à l'échelle des pétaoctets à des coûts inférieurs de moitié à ceux des solutions sur site traditionnelles et à une vitesse trois fois plus rapide que celle d'un outil Apache Spark standard. Vous pouvez exécuter des charges de travail sur des instances Amazon EC2, sur des clusters Amazon Elastic Kubernetes Service (EKS), ou sur des sites utilisant EMR sur des Outposts AWS.

En savoir plus sur la façon dont Apache Hudi simplifie les pipelines à des fins de capture des données modifiées (CDC) et de règlementations sur la confidentialité

Présentation d'Amazon EMR (3:00)

Avantages

Simple d'utilisation

Les analystes, les ingénieurs et scientifiques des données peuvent utiliser EMR Notebooks pour collaborer ainsi qu'explorer, traiter et visualiser les données de manière interactive. Spécifiez simplement la version des applications EMR et le type de calcul que vous souhaitez utiliser. EMR s'occupe de l'approvisionnement, de la configuration et de l'optimisation des clusters, ce qui vous permet de vous concentrer sur l'exécution de l'analyse.

Coûts avantageux

La tarification d'EMR est simple et prévisible : vous payez un tarif par instance pour chaque seconde utilisée, avec un forfait d'une minute minimum. Vous pouvez lancer un cluster EMR à 10 nœuds pour un coût aussi bas que 0,15 USD de l'heure. Vous pouvez économiser de 50 à 80 % sur le coût des instances en sélectionnant Amazon EC2 Spot pour les charges de travail transitoires et Instances réservées pour les charges de travail de longue durée. Vous pouvez aussi utiliser l'outil Savings Plans.

Elastic

Contrairement à l'infrastructure rigide des clusters sur site, EMR découple le calcul et le stockage, vous permettant ainsi de les mettre à l'échelle de manière individuelle et indépendante et de tirer parti du stockage à plusieurs niveaux d'Amazon S3. Avec EMR, vous pouvez provisionner une instance de calcul ou des centaines, voire des milliers d'instances de calcul ou de conteneurs afin de traiter vos données à n'importe quelle échelle. Le nombre d'instances peut être augmenté ou réduit automatiquement à l'aide d'Auto Scaling (qui gère les tailles de cluster en fonction de l'utilisation), et vous ne payez que pour ce que vous utilisez.

Fiable

Perdez moins de temps à optimiser et surveiller votre cluster. EMR est optimisé pour le cloud et surveille en permanence votre cluster ; il réessaie les tâches ayant échoué et remplace automatiquement les instances peu performantes. Les clusters sont hautement disponibles et basculent automatiquement en cas de défaillance d'un nœud. EMR fournit les dernières versions logicielles open source stables pour que vous n'ayez pas à gérer les mises à jour et les correctifs de bugs, ce qui représente moins de problèmes et moins d'efforts pour maintenir votre environnement.

Sécurisé

EMR configure automatiquement les paramètres de pare-feu EC2 contrôlant l'accès réseau aux instances et lance des clusters dans un Amazon Virtual Private Cloud (VPC). Vous pouvez utiliser le chiffrement côté serveur ou le chiffrement côté client avec AWS Key Management Service ou vos propres clés gérées par le client. EMR facilite l'activation d'autres options de chiffrement, telles que le chiffrement des données en transit et au repos et l'authentification renforcée avec Kerberos. Vous pouvez utiliser AWS Lake Formation ou Apache Ranger pour appliquer des contrôles d'accès des données à forte précision pour les bases de données, les tables et les colonnes.

Flexible

Vous avez un contrôle total de vos clusters EMR et de vos tâches EMR. Vous pouvez lancer des clusters EMR avec des AMI Amazon Linux personnalisées, et configurer facilement les clusters à l'aide de scripts pour installer des packages logiciels tiers supplémentaires. EMR vous permet de configurer à la volée des applications sur des clusters en cours d'exécution sans besoin de relancer ces derniers. Vous pouvez également personnaliser l'environnement d'exécution pour des tâches individuelles en spécifiant les bibliothèques et les dépendances d'exécution dans un conteneur Docker et les soumettre avec votre tâche.

Options de déploiement

Amazon EMR sur Amazon EC2

Vous pouvez déployer EMR sur Amazon EC2 et profiter d'instances Spot, à la demande et réservées. EMR assure l'approvisionnement, la gestion et la mise à l'échelle des instances EC2. AWS offre plus d'options d'instance que tout autre fournisseur de cloud, ce qui vous permet de choisir l'instance offrant les meilleures performances ou le meilleur coût pour votre charge de travail.

En savoir plus »

Amazon EMR sur Amazon EKS

Vous pouvez utiliser EMR pour exécuter des tâches Apache Spark à la demande sur Amazon Elastic Kubernetes Service (EKS), sans avoir besoin d'approvisionner des clusters EMR, pour améliorer l'utilisation des ressources et simplifier la gestion des infrastructures. Amazon EKS vous offre la possibilité de démarrer, d'exécuter et de mettre à l'échelle des applications Kubernetes dans le cloud AWS ou sur site. Avec Amazon EMR sur EKS, vous pouvez partager les ressources de calcul et de mémoire de toutes vos applications, et utiliser un seul ensemble d'outils Kubernetes pour surveiller et gérer votre infrastructure de manière centralisée.

En savoir plus »

Amazon EMR sur AWS Outposts

Amazon EMR est disponible sur AWS Outposts et vous permet de configurer, déployer, gérer et mettre à l’échelle EMR dans vos environnements sur site, comme vous le feriez dans le cloud. AWS Outposts offre les services, l'infrastructure et les modèles d'exploitation AWS à la quasi-totalité des centres de données, des espaces d'hébergement d'infrastructures ou des installations sur site.

En savoir plus »

Cas d'utilisation

Machine learning

Utilisez les outils de machine learning intégrés d'EMR, notamment Apache Spark MLlib, TensorFlow et Apache MXNet, pour exploiter des algorithmes de machine learning évolutifs, et utilisez des AMI personnalisées et des actions d'amorçage pour ajouter facilement les bibliothèques et outils de votre choix afin de créer votre propre jeu d'outils d'analyse prédictive.

Extraire, transformer, charger (ETL)

EMR permet d'exécuter de manière rapide et économique des charges de travail de transformation de données (ETL) telles que le tri, l'agrégation et la liaison, sur de grands ensembles de données.

Découvrez comment Redfin utilise les clusters EMR transitoires pour ETL »

Analyse des parcours de navigation

Analysez les données de parcours de navigation d'Amazon S3 à l'aide d'Apache Spark et Apache Hive pour segmenter les utilisateurs, comprendre leurs préférences et diffuser des annonces plus efficaces.

Streaming en temps réel

Analysez les événements d'Apache Kafka, d'Amazon Kinesis ou d'autres sources de données en continu en temps réel avec Apache Spark Streaming et Apache Flink pour créer des pipelines de données en continu de longue durée hautement disponibles et tolérants aux pannes sur EMR. Rendez persistants les ensembles de données transformés dans S3 ou HDFS, et les analyses dans Amazon Elasticsearch Service.

Découvrez comment Hearst utilise Spark Streaming. »

Analyse interactive

Les EMR Notebooks offrent un environnement analytique géré basé sur Jupyter open source qui permet aux scientifiques des données, aux analystes et aux développeurs de préparer et de visualiser les données, de collaborer avec leurs collègues, de créer des applications et d'effectuer des analyses interactives.

Génomique

EMR peut être utilisé pour traiter des volumes importants de données génomiques et d'autres grands ensembles de données scientifiques, rapidement et efficacement. Les chercheurs peuvent accéder aux données hébergées gratuitement sur AWS.

Découvrez Apache Spark et la médecine de précision »

Études de cas

Recherche d'analystes

Plus...

Nouveautés

date
  • date
1

Mise en route avec AWS

Guide de migration Amazon EMR
Lire le guide de migration

Apprenez comment migrer le Big Data sur site vers AWS

En savoir plus 
Créer gratuitement un compte AWS
Créer gratuitement un compte

Obtenez un accès instantané à l'offre gratuite d'AWS. 

S'inscrire 
Commencer à créer avec EMR dans la console
Commencez à créer sur la console

Commencez à créer sur la console AWS avec Amazon EMR.

Se connecter 

Migrer le Big Data sur site vers AWS

Ressources pour vous aider à planifier votre migration

En savoir plus sur le Big Data et l'analyse sur AWS

Lire le blog AWS consacré au Big Data