Amazon EMR

Exécutez et dimensionnez facilement les frameworks Apache Hadoop, Spark, HBase, Presto, Hive et d'autres frameworks de Big Data

Amazon EMR est la plate-forme Big Data native cloud leader qui permet aux équipes de traiter de grandes quantités de données rapidement et à moindre coût. Utilisant des outils open source, tels qu'Apache Spark, Apache Hive, Apache HBase, Apache Flink, et Presto, associés à la scalabilité dynamique d'Amazon EC2 et au stockage évolutif d’Amazon S3, EMR offre aux équipes d'analyse les moteurs et l'élasticité nécessaires à l'exécution d'analyses à l'échelle du pétaoctet pour une fraction du coût des clusters traditionnels sur site. Les développeurs et les analystes peuvent utiliser EMR Notebooks basé sur Jupyter pour le développement itératif, la collaboration et l'accès aux données stockées dans des produits de données AWS tels qu'Amazon S3, Amazon DynamoDB et Amazon Redshift, afin d'accélérer l'analyse et de rendre rapidement opérationnelles les analyses.

Les clients de nombreux secteurs utilisent EMR pour traiter de manière sécurisée et fiable un grand nombre de cas d'utilisation de données volumineuses, notamment le machine learning, la transformation de données (ETL), la simulation financière et scientifique, la bio-informatique, l'analyse des journaux et le deep learning. EMR offre aux équipes la possibilité d'exécuter des cas d'utilisation sur des clusters à courte durée de vie et usage unique qui s'adaptent automatiquement à la demande, ou sur des clusters à longue durée de vie utilisant le nouveau mode de déploiement multi-maître. 

Présentation d'Amazon EMR (3:00)

Avantages

Simplicité d'utilisation

EMR lance des clusters en quelques minutes. Vous n'avez pas à vous préoccuper du provisionnement, de la configuration de l'infrastructure, de la configuration d'Hadoop ou de l'optimisation du cluster. Amazon EMR prend en charge ces tâches, afin que vous puissiez vous concentrer sur vos opérations d'analyse. Les analystes, les ingénieurs de données et les scientifiques de données peuvent lancer un bloc-notes Jupyter sans serveur en quelques secondes en utilisant EMR Blocknotes, ce qui permet aux utilisateurs et aux équipes de collaborer, d'explorer, de traiter et de visualiser de manière interactive les données dans un format de bloc-notes simple à utiliser.

Faible coût

La tarification d'Amazon EMR est simple et prévisible : vous payez un tarif par instance pour chaque seconde utilisée, avec un forfait d'une minute minimum. Vous pouvez lancer un cluster EMR de 10 nœuds, avec des applications, telles que Apache Spark et Apache Hive, pour 0,15 USD seulement par heure. De plus, Amazon EMR propose un support natif pour les instances Amazon EC2 Spot et réservées. Vous pouvez donc également économiser entre 50 et 80 % sur le coût de vos instances sous-jacentes.

Elastic

Avec EMR, vous pouvez provisionner une instance ou des centaines, voire des milliers d'instances de calcul afin de traiter vos données à n'importe quelle échelle. Le nombre d'instances peut être augmenté ou réduit manuellement ou automatiquement à l'aide d'Auto Scaling (qui gère les tailles de cluster en fonction de l'utilisation), et vous ne payez que pour ce que vous utilisez. Contrairement à l'infrastructure rigide des clusters sur site, EMR dissocie le stockage de calcul et le stockage persistant, vous permettant ainsi de les faire évoluer indépendamment.

Fiable

Perdez moins de temps à optimiser et surveiller votre cluster. EMR est optimisé pour le cloud et surveille en permanence votre cluster : il réessaie les tâches ayant échoué et remplace automatiquement les instances peu performantes. EMR fournit les dernières versions logicielles open source pour que vous n’ayez pas à gérer les mises à jour et à appliquer les correctifs, ce qui représente moins de problèmes et moins d’efforts pour maintenir l’environnement. Avec plusieurs nœuds maîtres, les clusters sont hautement disponibles et basculent automatiquement en cas de défaillance d'un nœud.

Sécurisé

EMR configure automatiquement les paramètres de pare-feu EC2 contrôlant l'accès réseau aux instances et lance des clusters dans un Amazon Virtual Private Cloud (VPC), un réseau logiquement isolé que vous définissez. Pour les objets stockés dans S3, vous pouvez utiliser le chiffrement côté serveur ou le chiffrement côté client avec EMRFS (un magasin d'objets pour Hadoop sur S3), en utilisant AWS Key Management Service ou vos propres clés gérées par le client. EMR facilite l'activation d'autres options de chiffrement, telles que le chiffrement des données en transit et au repos et l'authentification renforcée avec Kerberos.

Flexible

Vous contrôlez complètement votre cluster. Vous disposez d'un accès racine à chaque instance et vous pouvez facilement installer des applications supplémentaires et personnaliser chaque cluster avec des actions d'amorçage. Vous pouvez également lancer des clusters EMR avec des images AMI personnalisées Amazon Linux et reconfigurer les clusters actifs à la volée sans qu'il soit nécessaire de relancer le cluster.

Cas d'utilisation

Apprentissage automatique

Utilisez les outils de machine learning intégrés d'EMR, notamment Apache Spark MLlib, TensorFlow et Apache MXNet, pour exploiter des algorithmes de machine learning évolutifs, et utilisez des images AMI personnalisées et des actions d'amorçage pour ajouter facilement les bibliothèques et outils de votre choix afin de créer votre propre jeu d'outils d'analyse prédictive.

Découvrez comment Intent Media utilise Spark MLib »

Extract Transform Load (ETL)

EMR permet d'exécuter de manière rapide et économique des charges de travail de transformation de données (ETL) telles que le tri, l'agrégation et la liaison, sur de grands ensembles de données.

Découvrez comment Redfin utilise les clusters EMR transitoires pour ETL »

Analyse des parcours de navigation

Analysez les données de parcours de navigation d'Amazon S3 à l'aide d'Apache Spark et Apache Hive pour segmenter les utilisateurs, comprendre leurs préférences et diffuser des annonces plus efficaces.

Découvrez comment Razorfish utilise EMR pour ses analyses de parcours de navigation »

Streaming en temps réel

Analysez les événements d'Apache Kafka, d'Amazon Kinesis ou d'autres sources de données en continu en temps réel avec Apache Spark Streaming et EMR pour créer des pipelines de données en continu de longue durée, hautement disponibles et tolérants aux pannes. Rendez persistants les ensembles de données transformés dans Amazon S3 ou HDFS, et les analyses dans Amazon Elasticsearch.

Découvrez comment Hearst utilise Spark Streaming »

Analyse interactive

Les blocs-notes EMR offrent un environnement analytique géré basé sur Jupyter open source qui permet aux spécialistes des données, aux analystes et aux développeurs de préparer et de visualiser des données, de collaborer avec leurs collègues, de créer des applications et d'effectuer des analyses interactives.

Génomique

EMR peut être utilisé pour traiter des volumes importants de données génomiques et d'autres grands ensembles de données scientifiques, rapidement et efficacement. Les chercheurs peuvent accéder aux données hébergées gratuitement sur AWS.

Découvrez Apache Spark et la médecine de précision »

Études de cas

Recherche d'analystes

1

Démarrer avec AWS

Step 1 - Sign up for an AWS account

Créer un compte AWS

Obtenez un accès instantané à l' offre gratuite d'AWS.
icon2

Apprenez-en plus avec les didacticiels de 10 minutes

Explorez et apprenez avec des didacticiels simples.
icon3

Commencez à créer avec AWS

Commencez à créer avec des guides pas à pas pour vous aider à lancer votre projet AWS.