EMR Studio est un environnement de développement intégré (IDE) qui permet aux scientifiques et ingénieurs des données de facilement développer, visualiser et déboguer les applications d'ingénierie et de science des données écrites en R, Python, Scala et PySpark.

EMR Studio fournit des Blocs-notes Jupyter entièrement gérés et des outils tels que Spark UI et YARN Timeline Service pour simplifier le débogage. Les scientifiques des données et les analystes peuvent installer des noyaux et des bibliothèques personnalisés, collaborer avec des pairs à l'aide de répertoires de code tels que GitHub et BitBucket, ou exécuter des blocs-notes paramétrés dans le cadre de flux de travail planifiés à l'aide de services d'orchestration comme Apache Airflow ou Amazon Managed Workflows for Apache Airflow.

Les noyaux et applications EMR Studio s'exécutent dans des clusters EMR, de sorte que vous bénéficiiez du traitement de données distribué en utilisant l'environnement d'exécution Amazon EMR pour Apache Spark aux performances optimisées. Les administrateurs peuvent configurer EMR Studio pour que les analystes puissent exécuter leurs applications dans les clusters EMR existants ou créer des clusters à l'aide de modèles AWS Cloud Formation prédéfinis pour EMR.

Introduction d’une nouvelle expérience IDE mettant en avant les blocs-notes avec Amazon EMR (26:46)

Fonctions et avantages

Simple à utiliser

EMR Studio facilite l'interaction avec les applications sur un cluster EMR. Vous pouvez accéder à EMR Studio soit à partir de la console AWS en utilisant l'Authentification AWS IAM, soit sans vous connecter à la console AWS en activant l'accès fédéré à partir de votre fournisseur d'identité (IdP) par le biais d'AWS IAM Identity Center (successeur d'AWS SSO). Vous pouvez explorer, traiter et visualiser les données de manière interactive à l'aide de blocs-notes, créer et planifier des pipelines et déboguer des applications sans vous connecter aux clusters EMR.

Blocs-notes Jupyter entièrement gérés

Avec EMR Studio, vous pouvez démarrer des blocs-notes en quelques secondes, vous familiariser avec des blocs-notes types et effectuer votre exploration des données. Vous pouvez collaborer avec vos pairs via la collaboration en temps réel intégrée et suivre les changements sur les versions de bloc-note via les répertoires Git. Vous pouvez également personnaliser votre environnement en chargeant des noyaux et des bibliothèques Python personnalisés à partir des blocs-notes.

Applications faciles à créer

EMR Studio vous permet de passer facilement du prototypage à la production. Vous pouvez déclencher des pipelines à partir de répertoires de code, simplement exécuter des Blocs-notes en tant que pipelines à l'aide d'outils d'orchestration comme Apache Airflow ou Amazon Managed Workflows for Apache Airflow, ou attacher des blocs-notes à un cluster plus grand en un seul clic.

Débogage simplifié

Avec EMR Studio, vous pouvez déboguer des travaux et accéder aux journaux sans vous connecter au cluster pour les clusters actifs et résiliés. Vous pouvez utiliser des interfaces d'application natives telles que Spark UI et YARN Timeline Service directement depuis EMR Studio. EMR Studio vous permet également de localiser rapidement le cluster ou la tâche à déboguer en utilisant des filtres tels que l'état du cluster, le temps de création et l'ID du cluster.

Blocs-notes collaboratifs en temps réel

Avec EMR Studio, les scientifiques des données, les ingénieurs et les analystes peuvent collaborer entre équipes, en temps réel. Vous pouvez inviter vos collègues à consulter et à modifier les blocs-notes. Cela permet la co-création en temps réel, le débogage de code et les revues de code des blocs-notes Jupyter.

Amazon EMR Studio - Collaboration en temps réel

SQL Explorer

SQL Explorer est une fonction de votre espace de travail EMR Studio qui vous permet de parcourir le catalogue de données et d’exécuter des requêtes SQL sur les clusters EMR depuis EMR Studio. Dans SQL Explorer, vous pouvez vous connecter à Amazon EMR sur les clusters EC2 avec Presto pour voir et parcourir le catalogue de données. SQL Explorer vous fournit également un éditeur pour exécuter des requêtes SQL, visualiser les résultats de la recherche dans un tableau et les télécharger au format csv.

Amazon EMR Studio - SQL Explorer

Blocs-notes multilingues

EMR Studio vous permet d'utiliser plusieurs langues dans un seul bloc-notes Jupyter. Vous pouvez basculer entre Python, Scala, SparkSQL et R dans le même bloc-notes Jupyter et partager des données entre les cellules via des tables temporaires. Avec cette fonction, vous pouvez écrire du code dans les langues les mieux adaptées aux différents composants de votre flux de travail.

Cas d'utilisation

Créer des applications de science et d'ingénierie des données

Avec EMR Studio, vous pouvez démarrer des blocs-notes en quelques secondes, vous familiariser avec des blocs-notes types et effectuer votre exploration des données. Vous pouvez collaborer avec vos pairs via la collaboration en temps réel intégrée et suivre les changements sur les versions de blocs-notes via les référentiels Git. Vous pouvez également personnaliser votre environnement en chargeant des noyaux et des bibliothèques Python personnalisés à partir des blocs-notes.

Déployer les pipelines de production

Dans EMR Studio, vous pouvez utiliser le répertoire de code pour déclencher des pipelines. Vous pouvez également paramétrer et chaîner des blocs-notes pour créer des pipelines. Vous pouvez intégrer des blocs-notes dans des flux de travail planifiés à l'aide de services d'orchestration de flux de travail tels qu'Apache Airflow ou Amazon Managed Workflows for Apache Airflow. EMR Studio vous permet également de rattacher des blocs-notes à un cluster plus grand pour exécuter une tâche.

Simplifier les applications de débogage

Dans EMR Studio, vous pouvez déboguer des applications de bloc-notes à partir de l'interface utilisateur du bloc-notes. Vous pouvez également déboguer des pipelines en réduisant d'abord les clusters à l'aide de filtres tels que l'état des clusters, et diagnostiquer les travaux sur les clusters actifs et résiliés avec le moins de clics possible pour ouvrir les interfaces utilisateur de débogage natives telles que Spark UI, Tez UI et Yarn Timeline Service.

Ressources

Documentation

Guide de gestion Amazon EMR Studio

En savoir plus »

Blog

Amazon EMR Studio (version préliminaire) : une nouvelle expérience IDE mettant en avant les blocs-notes avec Amazon EMR
9 décembre 2020

En savoir plus »

Blog

Orchestrer des tâches d’analytique sur Amazon EMR Notebooks à l’aide d'Amazon MWAA
Janvier 27, 2021

En savoir plus »

Read the documentation
Lire le guide de migration

Apprenez comment migrer le Big Data sur site vers AWS

En savoir plus 
Créer gratuitement un compte AWS
Créer gratuitement un compte

Obtenez un accès instantané à l'offre gratuite d'AWS. 

S'inscrire 
Commencer à créer avec EMR dans la console
Commencez à créer sur la console

Commencez à créer sur la console AWS avec Amazon EMR.

Se connecter