Überspringen zum Hauptinhalt

Amazon EMR

Amazon EMR Studio

Warum EMR Studio?

EMR Studio ist eine integrierte Entwicklungsumgebung (IDE), die es Datenwissenschaftlern und Dateningenieuren erleichtert, in R, Python, Scala und PySpark geschriebene Dateningenieurs- und Datenwissenschafts-Anwendungen zu entwickeln, zu visualisieren und zu debuggen.

EMR Studio bietet vollständig verwaltete Jupyter Notebooks und Tools wie Spark UI und YARN Timeline Service, um das Debugging zu vereinfachen. Datenwissenschaftler und Analysten können benutzerdefinierte Kernels und Bibliotheken installieren, mit Kollegen über Code-Repositories wie GitHub und BitBucket zusammenarbeiten oder parametrisierte Notebooks als Teil geplanter Workflows unter Verwendung von Orchestrierungsdiensten wie Apache Airflow oder Amazon Managed Workflows for Apache Airflow ausführen.

EMR-Studio-Kernels und -Anwendungen werden auf EMR-Clustern ausgeführt, sodass Sie die Vorteile der verteilten Datenverarbeitung mithilfe der leistungsoptimierten Amazon-EMR-Laufzeit für Apache Spark nutzen können. Administratoren können EMR Studio so einrichten, dass Analysten ihre Anwendungen auf bestehenden EMR-Clustern ausführen oder neue Cluster mit vordefinierten AWS CloudFormation-Vorlagen für EMR erstellen können.

Einfache Verwendung

EMR Studio vereinfacht die Interaktion mit Anwendungen auf einem EMR-Cluster. Sie können entweder über die AWS-Konsole mit AWS-IAM-Authentifizierung oder ohne Anmeldung bei der AWS-Konsole auf EMR Studio zugreifen, indem Sie den Verbundzugriff von Ihrem Identitätsanbieter (IdP) über AWS IAM Identity Center (Nachfolger von AWS SSO) aktivieren. Sie können Daten mithilfe von Notebooks interaktiv untersuchen, verarbeiten und visualisieren, Pipelines erstellen und planen und Anwendungen debuggen, ohne sich bei EMR-Clustern anmelden zu müssen.
Screenshot of the AWS EMR Studio dashboard highlighting the use of fully-managed Jupyter Notebooks, notebook attachment to clusters for running jobs, and tools for quick diagnosis and debugging. The interface allows creation of workspaces and searching clusters, useful for analytics and data engineering workflows.

Vollständig verwaltete Jupyter-Notebooks

Mit EMR Studio können Sie Notebooks in Sekundenschnelle starten, mit Beispielnotebooks integriert werden und Ihre Datenexploration durchführen. Sie können mit Kollegen über die integrierte Zusammenarbeit in Echtzeit zusammenarbeiten und Änderungen über Notebook-Versionen hinweg über Git-Repositories verfolgen. Sie können Ihre Umgebung auch anpassen, indem Sie benutzerdefinierte Kernels und Python-Bibliotheken aus Notebooks laden.
Screenshot of an EMR Notebooks demo in AWS EMR Studio. The displayed Jupyter notebook explains how to install notebook-scoped Python libraries on a running cluster, visualize Spark dataframes, and describes the benefits of notebook-scoped libraries such as runtime installation, dependency isolation, and portability.

Einfach zu erstellende Anwendungen

EMR Studio erleichtert Ihnen den Übergang vom Prototyping zur Produktion. Sie können Pipelines aus Code-Repositorys auslösen, Notebooks einfach als Pipelines mit Orchestrierungstools wie Apache Airflow oder Amazon Managed Workflows for Apache Airflow ausführen oder Notebooks mit einem einzigen Klick an einen größeren Cluster anfügen.
Screenshot of the Apache Airflow interface in AWS EMR Studio showing the DAG (Directed Acyclic Graph) tree view for a custom cluster execution sensor DAG, with workflow steps and task status indicators.

Vereinfachtes Debugging

Mit EMR Studio können Sie sowohl für aktive als auch für terminierte Cluster Aufträge debuggen und auf Protokolle zugreifen, ohne sich beim Cluster anzumelden. Sie können native Anwendungsschnittstellen wie Spark UI und YARN Timeline Service direkt aus EMR Studio verwenden. Mit EMR Studio können Sie auch den zu debuggenden Cluster oder Auftrag mithilfe von Filtern wie Clusterstatus, Erstellungszeit und Cluster-ID schnell finden.
Screenshot of the AWS EMR Studio interface showing EC2 cluster management and debugging features within a Jupyter notebook environment. The interface lists various EMR clusters, their IDs, states, elapsed times, and launching options for application UIs such as Spark History Server, YARN Timeline Server, and Tez UI.

Kollaborative Notizbücher in Echtzeit

Mit EMR Studio können Datenwissenschaftler, Ingenieure und Analysten teamübergreifend in Echtzeit zusammenarbeiten. Sie können Ihre Kollegen einladen, Notizbücher anzuzeigen und zu bearbeiten. Dies ermöglicht die gemeinsame Dokumenterstellung, das Code-Debugging und die Codeüberprüfung von Jupyter-Notebooks in Echtzeit.

SQL Explorer

EMR Studio wird mit SQL Explorer geliefert, einer Funktion in Ihrem Workspace, mit der Sie den Datenkatalog durchsuchen und SQL-Abfragen auf EMR-Clustern direkt aus EMR Studio ausführen können. In SQL Explorer können Sie eine Verbindung mit Amazon EMR in EC2-Clustern mit Presto herstellen, um den Datenkatalog anzuzeigen und zu durchsuchen. SQL Explorer bietet Ihnen auch einen Editor zum Ausführen von SQL-Abfragen, zum Anzeigen derer in einer Tabelle und zum Herunterladen von Abfrageergebnissen im CSV-Format.

Mehrsprachige Notebooks

Mit EMR Studio können Sie mehrere Sprachen in einem einzigen Jupyter-Notebook verwenden. Sie können jetzt innerhalb desselben Jupyter-Notebooks zwischen Python, Scala, SparkSQL und R wechseln und Daten über temporäre Tabellen zwischen Zellen austauschen. Mit dieser Funktion können Sie Code in Sprachen schreiben, die für verschiedene Komponenten Ihres Workflows am besten geeignet sind.
Screenshot of Amazon EMR Studio showing a multi-language Jupyter Notebook interface with cells using SparkR, SQL, PySpark, and ScalaSpark code, displayed on a gradient background.

Anwendungsfälle

    Mit EMR Studio können Sie Notebooks in Sekundenschnelle starten, mit Beispielnotebooks integriert werden und Ihre Datenexploration durchführen. Sie können mit Kollegen über die integrierte Zusammenarbeit in Echtzeit zusammenarbeiten und Änderungen über Notebook-Versionen hinweg über Git-Repositories verfolgen. Sie können Ihre Umgebung auch anpassen, indem Sie benutzerdefinierte Kernels und Python-Bibliotheken aus Notebooks laden.

    In EMR Studio können Sie das Code-Repository verwenden, um Pipelines auszulösen. Sie können auch Notebooks parametrieren und verketten, um Pipelines zu erstellen. Sie können Notebooks mithilfe von Workflow-Orchestrierungsservices wie Apache Airflow oder Amazon Managed Workflows for Apache Airflow in geplante Workflows integrieren. Mit EMR Studio können Sie auch Notebooks erneut an einen größeren Cluster anfügen, um einen Auftrag auszuführen.

    In EMR Studio können Sie Notebook-Anwendungen über die Notebook-Benutzeroberfläche debuggen. Sie können Pipelines auch debuggen, indem Sie zunächst Cluster mithilfe von Filtern wie dem Clusterstatus eingrenzen und Aufträge sowohl für aktive als auch für abgeschlossene Cluster mit so wenigen Klicks wie möglich diagnostizieren, um systemeigene Debugbenutzeroberflächen wie Spark UI, Tez UI und Yarn Timeline Service zu öffnen.