Passer au contenu principal

Amazon EMR

Apache Spark sur Amazon EMR

Pourquoi choisir Apache Spark sur EMR ?

Amazon EMR vous permet de créer des lacs de données ouverts et transactionnels à l’aide d’Apache Spark et d’Apache Iceberg. Notre environnement d’exécution optimisé pour les performances est 100 % compatible avec l’API de Spark open source ; il s’exécute jusqu’à 4,5 fois plus rapidement que ses équivalents open source, tout en offrant des performances d’écriture Iceberg 2,7 fois plus rapides.

EMR prend en charge Apache Iceberg v3 et Spark 4.0 (version préliminaire), ce qui vous permet de tirer parti de fonctionnalités telles que les transactions ACID et l’évolution des schémas, avec des fonctionnalités comme le type de données VARIANT ou les données semi-structurées à grande échelle, ainsi que la conformité ANSI SQL pour l’intégrité des données. Que vous ayez besoin du contrôle granulaire d’EC2, de l’évolutivité conteneurisée d’EKS ou de la simplicité d’EMR sans serveur, Amazon EMR offre vitesse, fiabilité et intégrité des données.  

Fonctionnalités et avantages

    Le runtime Apache Spark optimisé pour les performances d’Amazon EMR accélère les charges de travail des lacs de données avec une exécution jusqu’à 4,5 fois plus rapide que les équivalents open source, tout en conservant une compatibilité API à 100 %. Cette optimisation s’étend aux opérations Apache Iceberg, offrant des performances d’écriture 2,7 fois plus rapides pour les lacs de données transactionnels qui exigent à la fois vitesse et fiabilité.

    Grâce à la prise en charge d’Apache Iceberg v3 et de Spark 4.0 (version préliminaire), EMR offre des fonctionnalités avancées, notamment les transactions ACID, l’évolution des schémas, le type de données VARIANT pour le traitement des données semi-structurées et la conformité ANSI SQL.

    L’environnement d’exécution Amazon EMR pour Spark optimise vos plans de requête afin qu’ils s’exécutent entièrement en mémoire, maximisant ainsi l’utilisation de votre matériel. En rationalisant la gestion des données intermédiaires, EMR réduit le délai d’obtention des résultats pour vos charges de travail de machine learning les plus gourmandes en ressources, vous permettant ainsi d’itérer plus rapidement.

    Modernisez votre flux de travail avec SageMaker Unified Studio et EMR Studio, qui fournissent des environnements intégrés pour SQL, Python et Scala. Tirez parti d’Amazon Q Developer pour générer du code PySpark optimisé et dépanner des plans d’exécution complexes (DAG) en temps réel. Contrairement à Spark standard, EMR fournit une interface utilisateur Persistent Spark, vous permettant d’analyser et de déboguer les journaux de tâches même après la fin de vos applications sans serveur ou de vos clusters éphémères. Cette persistance est essentielle pour l’audit et l’optimisation continue des performances dans les environnements de production.

    EMR sans serveur élimine les frictions opérationnelles en offrant une expérience de notebook à démarrage instantané. Vous n’avez plus besoin de provisionner, de faire évoluer ou de gérer des clusters. Vous associez votre environnement de développement préféré, tel qu’Amazon SageMaker Unified Studio ou JupyterLab, à une application EMR sans serveur et commencez à effectuer des requêtes. L’environnement d’exécution EMR pour Spark garantit que votre code interactif fonctionne avec la même vitesse de niveau entreprise que vos pipelines de production. Que vous effectuiez une exploration ad hoc de pétaoctets de données S3 ou que vous exécutiez des tâches complexes d’ingénierie des caractéristiques, Amazon EMR fournit l’environnement fluide et hautement performant nécessaire pour accélérer vos cadres de science des données les plus critiques.

    L’agent de mise à niveau Apache Spark identifie automatiquement les modifications d’API et de comportement dans les applications PySpark et Scala. Les ingénieurs peuvent lancer des mises à niveau directement depuis SageMaker Unified Studio ou l’IDE de leur choix grâce à la compatibilité MCP (Model Context Protocol). Au cours du processus de mise à niveau, l’agent analyse le code existant et suggère des modifications spécifiques, que les ingénieurs peuvent examiner et approuver avant la mise en œuvre. L’agent valide l’exactitude fonctionnelle grâce à des validations de la qualité des données. L’agent prend actuellement en charge les mises à niveau de Spark 2.4 vers la version 3.5 et garantit la précision du traitement des données tout au long du processus de mise à niveau.

Cas d’utilisation

    Utilisez et traitez des données en temps réel depuis Amazon Kinesis, Apache Kafka ou d’autres flux de données avec Spark Streaming sur EMR. Diffusez des données analytiques en continu en profitant d’une tolérance élevée aux pannes et écrivez les résultats sur S3 ou sur le système HDFS dans le cluster.

    Apache Spark sur EMR comprend la bibliothèque MLlib pour offrir un large éventail d’algorithmes de machine learning scalables. Vous pouvez également utiliser vos propres bibliothèques. En stockant les ensembles de données en mémoire lors de l'exécution d'une tâche, Spark offre des performances élevées pour les requêtes itératives courantes dans les charges de travail de machine learning. Vous pouvez accroître les capacités Amazon SageMaker en connectant l’instance de bloc-notes à un cluster Spark Apache qui s’exécute sur Amazon EMR, avec Amazon SageMaker Spark, afin de facilement former les modèles et de les héberger.

    Vous pouvez utiliser Spark SQL pour exécuter des requêtes interactives à faible latence avec SQL ou HiveQL. Étant donné que Spark on EMR peut exploiter le système EMRFS, vous pouvez accéder à vos ensembles de données dans S3. Vous pouvez également utiliser EMR Studio, EMR Notebooks, des blocs-notes Zeppelin ou des outils d’informatique décisionnelle via les connexions ODBC et JDBC.

Réussite client

Yelp

Missing alt text value L’équipe de ciblage publicitaire de Yelp réalise des modèles de prévision pour déterminer la probabilité qu’un utilisateur interagisse avec une publicité. En utilisant Apache Spark sur Amazon EMR pour traiter de grandes quantités de données afin de former des modèles de machine learning, Yelp a augmenté son chiffre d’affaires et son taux de clics publicitaires.

The Washington Post

Missing alt text value Le Washington Post utilise Apache Spark sur Amazon EMR pour créer des modèles optimisant le moteur de recommandation de son site Web pour améliorer l’engagement et la satisfaction des lecteurs. Le journal tire parti de la connectivité performante d’Amazon EMR avec Amazon S3 pour mettre à jour ses modèles en temps quasi réel.

Krux

Missing alt text value Dans le cadre de sa plate-forme de gestion des données spécialisée dans la recherche d’informations sur les clients, Krux exécute de nombreuses charges de travail de machine learning et de traitement général à l’aide d’Apache Spark. Krux utilise des clusters Amazon EMR éphémères avec sa capacité d’instance Spot Amazon EC2 pour réaliser des économies et utilise Amazon S3 avec le système EMRFS comme couche de données pour Apache Spark.

GumGum

Missing alt text value GumGum, une plateforme spécialisée dans les images et écrans publicitaires, utilise Spark sur Amazon EMR pour les prévisions de stocks, le traitement des journaux de parcours de navigation et l’analyse ad hoc de données non structurées dans Amazon S3. Les améliorations de performances obtenues grâce à Spark ont permis à GumGum de gagner du temps et de réaliser des économies dans le cadre de ces processus.

Hearst Corporation

Missing alt text value Hearst Corporation, une grande société de médias et d’information diversifiée, possède plus de 200 actifs Web proposant de nombreux contenus à ses clients. En utilisant Apache Spark Streaming sur Amazon EMR, la rédaction de Hearst peut suivre en temps réel les articles les plus consultés et les thèmes qui suscitent le plus d’intérêt.

CrowdStrike

Missing alt text value CrowdStrike assure la protection des points de terminaison pour mettre fin aux failles de sécurité. L'entreprise utilise Amazon EMR avec Spark pour traiter des centaines de téraoctets de données d'événements et les déployer dans des descriptions comportementales de niveau supérieur sur les hôtes. A partir de ces informations, CrowdStrike peut rapprocher les données d’événements et identifier la présence d’opérations malveillantes.