- Amazon EMR
- Caratteristiche
- EMR Studio
Amazon EMR Studio
Perché EMR Studio?
EMR Studio è un ambiente di sviluppo integrato (IDE) che semplifica lo sviluppo, la visualizzazione e il debug di applicazioni di data engineering e data science scritte in R, Python, Scala e PySpark per i data scientist e i data engineer.
EMR Studio fornisce notebook Jupyter completamente gestiti e strumenti come l'interfaccia utente di Spark e YARN Timeline Service per semplificare il debug. I data scientist e gli analisti possono installare librerie e kernel personalizzati, collaborare con i colleghi utilizzando repository di codice come GitHub e BitBucket o eseguire notebook parametrizzati come parte di flussi di lavoro programmati tramite servizi di orchestrazione come Apache Airflow o Amazon Managed Workflows for Apache Airflow.
Le applicazioni e i kernel di EMR Studio vengono eseguiti nei cluster EMR in modo da poter sfruttare i vantaggi dell'elaborazione dei dati distribuiti attraverso il runtime di Amazon EMR per Apache Spark a prestazioni ottimizzate. Gli amministratori possono configurare EMR Studio in modo che gli analisti possano eseguire le loro applicazioni sui cluster EMR esistenti oppure creare nuovi cluster utilizzando i modelli predefiniti di AWS Cloud Formation per EMR.
Semplicità d'uso
Notebook Jupyter completamente gestiti
Applicazioni facili da creare
Debug semplificato
Notebook collaborativi in tempo reale
SQL Explorer
Notebook multilingue
Casi d'uso
-
Con EMR Studio, puoi avviare i notebook in pochi secondi, eseguire l'onboarding con notebook di esempio ed esplorare i dati. È possibile collaborare con i colleghi attraverso lo strumento integrato di collaborazione in tempo reale e tenere traccia delle modifiche tra le versioni dei notebook tramite i repository Git. È inoltre possibile personalizzare l'ambiente caricando propri kernel e librerie Python dai notebook.
-
In EMR Studio, è possibile usare il repository di codice per attivare le pipeline. È inoltre possibile parametrizzare e concatenare i notebook per creare le pipeline. È possibile integrare i notebook in flussi di lavoro programmati tramite servizi di orchestrazione dei flussi di lavoro come Apache Airflow o Amazon Managed Workflows for Apache Airflow. EMR Studio consente anche di ricollegare i notebook a un cluster più grande per eseguire un lavoro.
-
In EMR Studio è possibile eseguire il debug di per notebook dall'interfaccia utente dei notebook. È inoltre possibile eseguire il debug delle pipeline riducendo prima i cluster usando filtri come lo stato del cluster e diagnosticare i processi sia sui cluster attivi che su quelli terminati con il minor numero di clic possibile per aprire le interfacce utente di debug native come l'interfaccia utente di Spark, l'interfaccia utente di Tez e Yarn Timeline Service.