Apache Spark est un système de traitement open source distribué, couramment utilisé pour les charges de travail de Big Data. Apache Spark utilise une mise en mémoire cache et une exécution optimisée pour offrir des performances élevées, et prend en charge le traitement par lot général, les analyses en continu, l'apprentissage machine, les bases de données orientées graphe et les requêtes ad hoc.
Apache Spark sur Hadoop YARN est pris en charge de manière native sur Amazon EMR et vous pouvez rapidement et facilement créer des clusters Apache Spark gérés à partir d'AWS Management Console, de la CLI (interface ligne de commande) AWS ou de l'API Amazon EMR. De plus, vous pouvez profiter d'autres fonctionnalités d'Amazon EMR, notamment une connectivité rapide à Amazon S3 à l'aide du système de fichiers Amazon EMR (EMRFS), une intégration à la place de marché dédiée aux instances ponctuelles Amazon EC2 et un redimensionnement de commandes pour ajouter ou supprimer facilement des instances dans votre cluster. Vous pouvez également utiliser Apache Zeppelin pour créer des blocs-notes interactifs et collaboratifs pour l'exploration de données à l'aide d'Apache Spark.
Démarrez avec Apache Spark sur Amazon EMR
Créez un compte gratuitAvez-vous besoin d'aide ? Demandez-nous !
Will Spark Power the Data behind Precision Medicine?
Analyze Your Data on Amazon DynamoDB with Apache Spark
Optimize Spark-Streaming to Efficiently Process Amazon Kinesis Streams
Submitting User Applications with spark-submit
Querying Amazon Kinesis Streams Directly with SQL & Spark Streaming
Running an External Zeppelin Instance using S3 Backed Notebooks with Spark on Amazon EMR
Grâce à un moteur d'exécution de graphe orienté acyclique (DAG, Directed Acyclic Graph), Apache Spark peut créer des plans de requêtes efficaces pour les transformations de données. Apache Spark stocke également en mémoire des données d'entrée, de sortie et intermédiaires sous forme d'ensembles de données distribués résistants (RDD, resilient distributed datasets) pour assurer un traitement rapide sans coût d'E/S et améliorer les performances des charges de travail itératives ou interactives.
Apache Spark offre une prise en charge native de Java, Scala et Python, pour vous proposer un large éventail de langages pour la création de vos applications. Vous pouvez également soumettre des requêtes SQL ou HiveQL à Apache Spark à l'aide du module Spark SQL. En plus d'exécuter des applications, vous pouvez utiliser l'API Apache Spark de manière interactive avec Python ou Scala directement dans le shell Apache Spark sur votre cluster. Vous pouvez également utiliser Zeppelin pour créer des blocs-notes interactifs et collaboratifs pour l'exploration de données à l'aide d'Apache Spark.
Apache Spark comprend plusieurs bibliothèques permettant la création d'applications pour l'apprentissage machine (MLlib), le traitement des flux (Spark Streaming) et le traitement des graphes (GraphX). Ces bibliothèques sont étroitement intégrées à l'écosystème Apache Spark et sont prêtes à l'emploi pour répondre à différents cas d'utilisation.
Vous pouvez soumettre des tâches Apache Spark à l'aide de l'API Amazon EMR Step, utiliser Apache Spark avec le système EMRFS pour accéder directement aux données dans Amazon S3, réaliser des économies en utilisant votre capacité d'instance ponctuelle Amazon EC2 et lancer des clusters de longue durée ou éphémères pour vous adapter à votre charge de travail. Amazon EMR assure l'installation et la gestion d'Apache Spark sur Hadoop YARN. Vous pouvez également ajouter d'autres applications de l'écosystème Hadoop sur votre cluster. Cliquez ici pour en savoir plus sur les fonctionnalités d'Amazon EMR.
Yelp
L'équipe de ciblage publicitaire de Yelp réalise des modèles de prévision pour déterminer la probabilité qu'un utilisateur interagisse avec une publicité. En utilisant Apache Spark sur Amazon EMR pour traiter de grandes quantités de données afin de former des modèles d'apprentissage machine, Yelp a augmenté son chiffre d'affaires et son taux de clics publicitaires.
Washington Post
Le Washington Post utilise Apache Spark sur Amazon EMR pour créer des modèles optimisant le moteur de recommandation de son site Web pour améliorer l'engagement et la satisfaction des lecteurs. Le journal tire parti de la connectivité performante d'Amazon EMR avec Amazon S3 pour mettre à jour ses modèles en temps quasi réel.
Intent Media
Intent Media gère une plate-forme publicitaire destinée aux sites marchands de voyage. L'équipe responsable du traitement des données utilise Apache Spark et MLlib sur Amazon EMR pour intégrer chaque jour des téraoctets de données concernant l'e-commerce et se sert de ces informations pour améliorer ses services décisionnels afin d'optimiser le chiffre d'affaires des clients. Cliquez ici pour en savoir plus.
Krux
Dans le cadre de sa plate-forme de gestion des données spécialisée dans la recherche d'informations sur les clients, Krux exécute de nombreuses charges de travail d'apprentissage machine et de traitement général à l'aide d'Apache Spark. Krux utilise des clusters Amazon EMR éphémères avec sa capacité d'instance ponctuelle Amazon EC2 pour réaliser des économies et utilise Amazon S3 avec le système EMRFS comme couche de données pour Apache Spark.
GumGum
GumGum, une plate-forme spécialisée dans les images et écrans publicitaires, utilise Spark sur Amazon EMR pour les prévisions de stocks, le traitement des journaux de parcours de navigation et l'analyse ad hoc de données non structurées dans Amazon S3. Les améliorations de performances obtenues grâce à Spark ont permis à GumGum de gagner du temps et de réaliser des économies dans le cadre de ces processus.
Hearst Corporation
Hearst Corporation, une grande société de médias et d'information diversifiée, possède plus de 200 actifs Web proposant de nombreux contenus à ses clients. En utilisant Apache Spark Streaming sur Amazon EMR, la rédaction de Hearst peut suivre en temps réel les articles les plus consultés et les thèmes qui suscitent le plus d'intérêt.
CrowdStrike
CrowdStrike assure la protection des Endpoints pour mettre fin aux failles de sécurité. L'entreprise utilise Amazon EMR avec Spark pour traiter des centaines de téraoctets de données d'événements et les déployer dans des descriptions comportementales de niveau supérieur sur les hôtes. A partir de ces informations, CrowdStrike peut rapprocher les données d'événements et identifier la présence d'opérations malveillantes.
Utilisez et traitez des données en temps réel depuis Amazon Kinesis, Apache Kafka ou d'autres flux de données avec Spark Streaming sur Amazon EMR. Effectuez des analyses en continu en profitant d'une tolérance élevée aux pannes et écrivez les résultats sur Amazon S3 ou sur le système HDFS dans le cluster.
Apache Spark sur Amazon EMR comprend la bibliothèque MLlib pour offrir un large éventail d'algorithmes d'apprentissage machine évolutifs. Vous pouvez également utiliser vos propres bibliothèques. En stockant les ensembles de données en mémoire lors de l'exécution d'une tâche, Spark offre des performances élevées pour les requêtes itératives courantes dans les charges de travail d'apprentissage machine.
Vous pouvez utiliser Spark SQL pour exécuter des requêtes interactives à faible latence avec SQL ou HiveQL. Etant donné qu'Apache Spark sur Amazon EMR peut utiliser le système EMRFS, vous pouvez accéder à vos ensembles de données dans Amazon S3. Vous pouvez également utiliser des blocs-notes Zeppelin ou des outils d'informatique décisionnelle via les connexions ODBC et JDBC.
- Instructions concernant la création d'un cluster Amazon EMR avec Apache Spark
- Pour en savoir plus sur le projet Spark, consultez le site Web d'Apache Software Foundation consacré au projet Spark
- Article concernant le lancement de Spark sur Amazon EMR et démonstration sur le blog AWS
- Article rédigé par Intent Media sur le blog AWS Big Data au sujet de l'apprentissage machine à l'aide d'Apache Spark sur Amazon EMR