Amazon EMR

Exécutez et mettez à l'échelle facilement les cadres Apache Spark, Hive, Presto et d'autres cadres de Big Data.

Amazon EMR est une plateforme leader de Big Data dans le cloud dédiée au traitement de grandes quantités de données à l'aide d'outils à code source libre tels que Apache Spark, Apache Hive, Apache HBase, Apache Flink, Apache Hudi et Presto. EMR vous permet d'exécuter des analyses à l'échelle des pétaoctets à des coûts inférieurs de moitié à ceux des solutions sur site traditionnelles et à une vitesse trois fois plus rapide que celle d'un outil Apache Spark standard. Pour des tâches de courte durée, vous pouvez lancer et arrêter des clusters et payer suivant une tarification à la seconde pour les instances utilisées. Pour les charges de travail de longue durée, vous pouvez créer des clusters hautement disponibles que vous pouvez mettre automatiquement à l'échelle pour répondre à la demande. Si vous avez des déploiements sur site existants d'outils à code source libre, par exemple Apache Spark et Apache Hive, vous pouvez également exécuter des clusters EMR sur AWS Outposts.

En savoir plus sur la réduction des coûts et la simplification des opérations via la migration des charges de travail sur site sur EMR

En savoir plus sur la façon dont Apache Hudi simplifie les pipelines à des fins de capture des données modifiées (CDC) et de règlementations sur la confidentialité

Présentation d'Amazon EMR (3:00)

Avantages

Simplicité d'utilisation

Les analystes, les ingénieurs et scientifiques des données peuvent utiliser EMR Notebooks, ce qui permet aux utilisateurs et aux équipes de collaborer facilement, ainsi que d'explorer, de traiter et de visualiser de manière interactive les données. Il vous suffit de spécifier la version des applications EMR et le type de calcul que vous souhaitez utiliser. EMR s'occupe du provisionnement, de la configuration et de l'optimisation des clusters, ce qui vous permet de vous concentrer sur l'exécution de l'analyse.

Coûts avantageux

La tarification d'EMR est simple et prévisible : vous payez un tarif par instance pour chaque seconde utilisée, avec un forfait d'une minute minimum. Vous pouvez lancer un cluster EMR à 10 nœuds pour un coût aussi bas que 0,15 USD de l'heure. Vous pouvez également économiser de 50 à 80 % sur le coût des instances en sélectionnant Amazon EC2 Spot pour les charges de travail transitoires et Instances réservées pour les charges de travail de longue durée. Vous pouvez aussi utiliser l'outil Savings Plans.

Elastic

Contrairement à l'infrastructure rigide des clusters sur site, EMR découple le calcul et le stockage, vous permettant ainsi de les mettre à l'échelle de manière individuelle et indépendante et de tirer parti du stockage à plusieurs niveaux d'Amazon S3. Avec EMR, vous pouvez provisionner une instance de calcul ou des centaines, voire des milliers d'instances de calcul afin de traiter vos données à n'importe quelle échelle. Le nombre d'instances peut être augmenté ou réduit automatiquement à l'aide d'Auto Scaling (qui gère les tailles de cluster en fonction de l'utilisation), et vous ne payez que pour ce que vous utilisez.

Fiable

Perdez moins de temps à optimiser et surveiller votre cluster. EMR est optimisé pour le cloud et surveille en permanence votre cluster ; il réessaie les tâches ayant échoué et remplace automatiquement les instances peu performantes. Avec plusieurs nœuds maîtres, les clusters sont hautement disponibles et basculent automatiquement en cas de défaillance d'un nœud. EMR fournit les dernières versions logicielles open source stables pour que vous n'ayez pas à gérer les mises à jour et les correctifs de bugs, ce qui représente moins de problèmes et moins d'efforts pour maintenir l'environnement.

Sécurisé

EMR configure automatiquement les paramètres de pare-feu EC2 contrôlant l'accès réseau aux instances et lance des clusters dans un Amazon Virtual Private Cloud (VPC). Vous pouvez utiliser le chiffrement côté serveur ou le chiffrement côté client avec AWS Key Management Service ou vos propres clés gérées par le client. EMR facilite l'activation d'autres options de chiffrement, telles que le chiffrement des données en transit et au repos et l'authentification renforcée avec Kerberos. Vous pouvez utiliser AWS Lake Formation ou Apache Ranger pour appliquer des contrôles d'accès des données à forte précision pour les bases de données, les tables et les colonnes.

Flexible

Vous possédez le contrôle total sur votre cluster avec un accès racine à chaque instance. Vous pouvez lancer des clusters EMR avec des AMI Amazon Linux personnalisées et installer facilement des applications supplémentaires avec des actions d'amorçage. EMR vous permet de configurer à la volée des applications sur des clusters en cours d'exécution sans besoin de relancer ces derniers. De plus, avec Hadoop 3.0, vous pouvez empaqueter des dépendances de bibliothèques dans des conteneurs Docker et les soumettre avec vos tâches afin de simplifier les dépendances d'environnement.

Cas d'utilisation

Machine learning

Utilisez les outils de machine learning intégrés d'EMR, notamment Apache Spark MLlib, TensorFlow et Apache MXNet, pour exploiter des algorithmes de machine learning scalables, et utilisez des AMI personnalisées et des actions d'amorçage pour ajouter facilement les bibliothèques et outils de votre choix afin de créer votre propre jeu d'outils d'analyse prédictive.

Extract Transform Load (ETL)

EMR permet d'exécuter de manière rapide et économique des charges de travail de transformation de données (ETL) telles que le tri, l'agrégation et la liaison, sur de grands ensembles de données.

Découvrez comment Redfin utilise les clusters EMR transitoires pour ETL »

Analyse des parcours de navigation

Analysez les données de parcours de navigation d'Amazon S3 à l'aide d'Apache Spark et Apache Hive pour segmenter les utilisateurs, comprendre leurs préférences et diffuser des annonces plus efficaces.

Streaming en temps réel

Analysez les événements d'Apache Kafka, d'Amazon Kinesis ou d'autres sources de données en continu en temps réel avec Apache Spark Streaming et Apache Flink pour créer des pipelines de données en continu de longue durée hautement disponibles et tolérants aux pannes sur EMR. Rendez persistants les ensembles de données transformés dans S3 ou HDFS, et les analyses dans Amazon Elasticsearch Service.

Découvrez comment Hearst utilise Spark Streaming. »

Analyse interactive

Les EMR Notebooks offrent un environnement analytique géré basé sur Jupyter open source qui permet aux scientifiques des données, aux analystes et aux développeurs de préparer et de visualiser les données, de collaborer avec leurs collègues, de créer des applications et d'effectuer des analyses interactives.

Génomique

EMR peut être utilisé pour traiter des volumes importants de données génomiques et d'autres grands ensembles de données scientifiques, rapidement et efficacement. Les chercheurs peuvent accéder aux données hébergées gratuitement sur AWS.

Découvrez Apache Spark et la médecine de précision »

Études de cas

Démarrer avec AWS

Guide de migration Amazon EMR
Lire le guide de migration

Apprenez comment migrer le Big Data sur site vers AWS

En savoir plus 
Créer gratuitement un compte AWS
Créer gratuitement un compte

Obtenez un accès instantané à l'offre gratuite d'AWS. 

S'inscrire 
Commencer à créer avec EMR dans la console
Commencez à créer sur la console

Commencez à créer sur la console AWS avec Amazon EMR.

Se connecter 

Migrer le Big Data sur site vers AWS

Ressources pour vous aider à planifier votre migration

En savoir plus sur le Big Data et l'analyse sur AWS

Lire le blog AWS consacré au Big Data