Passa al contenuto principale

Amazon EMR

Amazon EMR Studio

Perché EMR Studio?

EMR Studio è un ambiente di sviluppo integrato (IDE) che semplifica lo sviluppo, la visualizzazione e il debug di applicazioni di data engineering e data science scritte in R, Python, Scala e PySpark per i data scientist e i data engineer.

EMR Studio fornisce notebook Jupyter completamente gestiti e strumenti come l'interfaccia utente di Spark e YARN Timeline Service per semplificare il debug. I data scientist e gli analisti possono installare librerie e kernel personalizzati, collaborare con i colleghi utilizzando repository di codice come GitHub e BitBucket o eseguire notebook parametrizzati come parte di flussi di lavoro programmati tramite servizi di orchestrazione come Apache Airflow o Amazon Managed Workflows for Apache Airflow.

Le applicazioni e i kernel di EMR Studio vengono eseguiti nei cluster EMR in modo da poter sfruttare i vantaggi dell'elaborazione dei dati distribuiti attraverso il runtime di Amazon EMR per Apache Spark a prestazioni ottimizzate. Gli amministratori possono configurare EMR Studio in modo che gli analisti possano eseguire le loro applicazioni sui cluster EMR esistenti oppure creare nuovi cluster utilizzando i modelli predefiniti di AWS Cloud Formation per EMR.

Semplicità d'uso

EMR Studio facilita l'interazione con le applicazioni su un cluster EMR. Puoi accedere a EMR Studio dalla Console AWS utilizzando il servizio di autenticazione IAM di AWS oppure senza accedere alla Console AWS abilitando l'accesso federato dal tuo gestore dell'identità digitale (IdP) tramite AWS IAM Identity Center (sostituisce AWS SSO). Puoi esplorare, elaborare e visualizzare interattivamente i dati utilizzando i notebook, costruire e pianificare pipeline ed eseguire il debug delle applicazioni senza accedere ai cluster EMR.
Screenshot of the AWS EMR Studio dashboard highlighting the use of fully-managed Jupyter Notebooks, notebook attachment to clusters for running jobs, and tools for quick diagnosis and debugging. The interface allows creation of workspaces and searching clusters, useful for analytics and data engineering workflows.

Notebook Jupyter completamente gestiti

Con EMR Studio, puoi avviare i notebook in pochi secondi, eseguire l'onboarding con notebook di esempio ed esplorare i dati. È possibile collaborare con i colleghi attraverso lo strumento integrato di collaborazione in tempo reale e tenere traccia delle modifiche tra le versioni dei notebook tramite i repository Git. È inoltre possibile personalizzare l'ambiente caricando propri kernel e librerie Python dai notebook.
Screenshot of an EMR Notebooks demo in AWS EMR Studio. The displayed Jupyter notebook explains how to install notebook-scoped Python libraries on a running cluster, visualize Spark dataframes, and describes the benefits of notebook-scoped libraries such as runtime installation, dependency isolation, and portability.

Applicazioni facili da creare

EMR Studio facilita il passaggio dalla creazione del prototipo alla produzione. Puoi attivare le pipeline da repository di codice, eseguire semplicemente i notebook come pipeline usando strumenti di orchestrazione come Apache Airflow o Amazon Managed Workflows for Apache Airflow, oppure collegare i notebook a un cluster più grande con un solo clic.
Screenshot of the Apache Airflow interface in AWS EMR Studio showing the DAG (Directed Acyclic Graph) tree view for a custom cluster execution sensor DAG, with workflow steps and task status indicators.

Debug semplificato

Con EMR Studio puoi eseguire il debug dei processi e accedere ai registri senza accedere al cluster. Questa funzione è valida sia per i cluster attivi che per quelli terminati. Puoi usare le interfacce delle applicazioni native come l'interfaccia utente di Spark e YARN Timeline Service direttamente da EMR Studio. EMR Studio permette anche di individuare rapidamente il cluster o il processo di cui eseguire il debug usando filtri come lo stato del cluster, la data di creazione e l'ID del cluster.
Screenshot of the AWS EMR Studio interface showing EC2 cluster management and debugging features within a Jupyter notebook environment. The interface lists various EMR clusters, their IDs, states, elapsed times, and launching options for application UIs such as Spark History Server, YARN Timeline Server, and Tez UI.

Notebook collaborativi in tempo reale

Con EMR Studio, i data scientist, gli ingegneri e gli analisti possono collaborare tra team in tempo reale. Puoi invitare i tuoi colleghi a visualizzare e modificare i notebook. Ciò consente la creazione condivisa, il debug dei codici e le revisioni dei codici per i notebook Jupyter.

SQL Explorer

EMR Studio viene fornito con SQL Explorer, una funzione nel tuo WorkSpace che permette di sfogliare il catalogo dei dati ed eseguire query SQL su cluster EMR direttamente da EMR Studio. In SQL Explorer puoi connetterti ad Amazon EMR su cluster EC2 con Presto per visualizzare e sfogliare il catalogo dei dati. SQL Explorer offre anche un Editor per eseguire query SQL, visualizzare i risultati della query in una tabella e scaricarli in formato csv.

Notebook multilingue

EMR Studio ti consente di usare più linguaggi all'interno di un singolo notebook Jupyter. Passa da un'applicazione all'altra tra Python, Scala, SparkSQL e R all'interno dello stesso notebook Jupyter e condividi i dati tra celle tramite le tabelle temporanee. Con questa funzione, puoi scrivere codici nei linguaggi più adatti ai diversi componenti dei tuoi flussi di lavoro.
Screenshot of Amazon EMR Studio showing a multi-language Jupyter Notebook interface with cells using SparkR, SQL, PySpark, and ScalaSpark code, displayed on a gradient background.

Casi d'uso

    Con EMR Studio, puoi avviare i notebook in pochi secondi, eseguire l'onboarding con notebook di esempio ed esplorare i dati. È possibile collaborare con i colleghi attraverso lo strumento integrato di collaborazione in tempo reale e tenere traccia delle modifiche tra le versioni dei notebook tramite i repository Git. È inoltre possibile personalizzare l'ambiente caricando propri kernel e librerie Python dai notebook.

    In EMR Studio, è possibile usare il repository di codice per attivare le pipeline. È inoltre possibile parametrizzare e concatenare i notebook per creare le pipeline. È possibile integrare i notebook in flussi di lavoro programmati tramite servizi di orchestrazione dei flussi di lavoro come Apache Airflow o Amazon Managed Workflows for Apache Airflow. EMR Studio consente anche di ricollegare i notebook a un cluster più grande per eseguire un lavoro.

    In EMR Studio è possibile eseguire il debug di per notebook dall'interfaccia utente dei notebook. È inoltre possibile eseguire il debug delle pipeline riducendo prima i cluster usando filtri come lo stato del cluster e diagnosticare i processi sia sui cluster attivi che su quelli terminati con il minor numero di clic possibile per aprire le interfacce utente di debug native come l'interfaccia utente di Spark, l'interfaccia utente di Tez e Yarn Timeline Service.