EMR Studio ist eine integrierte Entwicklungsumgebung (IDE), die es Datenwissenschaftlern und Dateningenieuren erleichtert, in R, Python, Scala und PySpark geschriebene Dateningenieurs- und Datenwissenschafts-Anwendungen zu entwickeln, zu visualisieren und zu debuggen.

EMR Studio bietet vollständig verwaltete Jupyter Notebooks und Tools wie Spark UI und YARN Timeline Service, um das Debugging zu vereinfachen. Datenwissenschaftler und Analysten können benutzerdefinierte Kernels und Bibliotheken installieren, mit Kollegen über Code-Repositories wie GitHub und BitBucket zusammenarbeiten oder parametrisierte Notebooks als Teil geplanter Workflows unter Verwendung von Orchestrierungsdiensten wie Apache Airflow oder Amazon Managed Workflows for Apache Airflow ausführen.

EMR Studio-Kernels und -Anwendungen werden auf EMR-Clustern ausgeführt, sodass Sie die Vorteile der verteilten Datenverarbeitung mithilfe der leistungsoptimierten Amazon EMR-Laufzeit für Apache Spark nutzen können. Administratoren können EMR Studio so einrichten, dass Analysten ihre Anwendungen auf bestehenden EMR-Clustern ausführen oder neue Cluster mit vordefinierten AWS CloudFormation-Vorlagen für EMR erstellen können.

Einführung einer neuen Notebook-First-IDE-Erfahrung mit Amazon EMR (26:46)

Funktionen und Vorteile

Einfache Verwendung

EMR Studio vereinfacht die Interaktion mit Anwendungen auf einem EMR-Cluster. Sie können entweder über die AWS-Konsole mit AWS-IAM-Authentifizierung oder ohne Anmeldung bei der AWS-Konsole auf EMR Studio zugreifen, indem Sie den Verbundzugriff von Ihrem Identitätsanbieter (IdP) über AWS Identity and Access Management (IAM) oder AWS-Single Sign-On (AWS SSO) aktivieren. Sie können Daten mithilfe von Notebooks interaktiv untersuchen, verarbeiten und visualisieren, Pipelines erstellen und planen und Anwendungen debuggen, ohne sich bei EMR-Clustern anmelden zu müssen.

Vollständig verwaltete Jupyter-Notebooks

Mit EMR Studio können Sie Notebooks in Sekundenschnelle starten, mit Beispielnotebooks integriert werden und Ihre Datenexploration durchführen. Sie können mit Kollegen über die integrierte Zusammenarbeit in Echtzeit zusammenarbeiten und Änderungen über Notebook-Versionen hinweg über Git-Repositories verfolgen. Sie können Ihre Umgebung auch anpassen, indem Sie benutzerdefinierte Kernels und Python-Bibliotheken aus Notebooks laden.

Einfach zu erstellende Anwendungen

EMR Studio erleichtert Ihnen den Übergang vom Prototyping zur Produktion. Sie können Pipelines aus Code-Repositorys auslösen, Notebooks einfach als Pipelines mit Orchestrierungstools wie Apache Airflow oder Amazon Managed Workflows for Apache Airflow ausführen oder Notebooks mit einem einzigen Klick an einen größeren Cluster anfügen.

Vereinfachtes Debugging

Mit EMR Studio können Sie sowohl für aktive als auch für terminierte Cluster Aufträge debuggen und auf Protokolle zugreifen, ohne sich beim Cluster anzumelden. Sie können native Anwendungsschnittstellen wie Spark UI und YARN Timeline Service direkt aus EMR Studio verwenden. Mit EMR Studio können Sie auch den zu debuggenden Cluster oder Auftrag mithilfe von Filtern wie Clusterstatus, Erstellungszeit und Cluster-ID schnell finden.

Kollaborative Notizbücher in Echtzeit

Mit EMR Studio können Datenwissenschaftler, Ingenieure und Analysten teamübergreifend in Echtzeit zusammenarbeiten. Sie können Ihre Kollegen einladen, Notizbücher anzuzeigen und zu bearbeiten. Dies ermöglicht die gemeinsame Dokumenterstellung, das Code-Debugging und die Codeüberprüfung von Jupyter-Notebooks in Echtzeit.

Amazon EMR Studio – Zusammenarbeit in Echtzeit

SQL Explorer

EMR Studio wird mit SQL Explorer geliefert, einer Funktion in Ihrem Workspace, mit der Sie den Datenkatalog durchsuchen und SQL-Abfragen auf EMR-Clustern direkt aus EMR Studio ausführen können. In SQL Explorer können Sie eine Verbindung mit Amazon EMR in EC2-Clustern mit Presto herstellen, um den Datenkatalog anzuzeigen und zu durchsuchen. SQL Explorer bietet Ihnen auch einen Editor zum Ausführen von SQL-Abfragen, zum Anzeigen derer in einer Tabelle und zum Herunterladen von Abfrageergebnissen im CSV-Format.

Amazon EMR Studio - SQL Explorer

Mehrsprachige Notebooks

Mit EMR Studio können Sie mehrere Sprachen in einem einzigen Jupyter-Notebook verwenden. Sie können jetzt innerhalb desselben Jupyter-Notebooks zwischen Python, Scala, SparkSQL und R wechseln und Daten über temporäre Tabellen zwischen Zellen austauschen. Mit dieser Funktion können Sie Code in Sprachen schreiben, die für verschiedene Komponenten Ihres Workflows am besten geeignet sind.

Anwendungsfälle

Erstellen von Data Science- und Engineering-Anwendungen

Mit EMR Studio können Sie Notebooks in Sekundenschnelle starten, mit Beispielnotebooks integriert werden und Ihre Datenexploration durchführen. Sie können mit Kollegen über die integrierte Zusammenarbeit in Echtzeit zusammenarbeiten und Änderungen über Notebook-Versionen hinweg über Git-Repositories verfolgen. Sie können Ihre Umgebung auch anpassen, indem Sie benutzerdefinierte Kernels und Python-Bibliotheken aus Notebooks laden.

Bereitstellen von Produktionspipelines

In EMR Studio können Sie das Code-Repository verwenden, um Pipelines auszulösen. Sie können auch Notebooks parametrieren und verketten, um Pipelines zu erstellen. Sie können Notebooks mithilfe von Workflow-Orchestrierungsservices wie Apache Airflow oder Amazon Managed Workflows for Apache Airflow in geplante Workflows integrieren. Mit EMR Studio können Sie auch Notebooks erneut an einen größeren Cluster anfügen, um einen Auftrag auszuführen.

Vereinfachen Sie das Debuggen von Anwendungen

In EMR Studio können Sie Notebook-Anwendungen über die Notebook-Benutzeroberfläche debuggen. Sie können Pipelines auch debuggen, indem Sie zunächst Cluster mithilfe von Filtern wie dem Clusterstatus eingrenzen und Aufträge sowohl für aktive als auch für abgeschlossene Cluster mit so wenigen Klicks wie möglich diagnostizieren, um systemeigene Debugbenutzeroberflächen wie Spark UI, Tez UI und Yarn Timeline Service zu öffnen.

Ressourcen

Dokumentation

Amazon EMR Studio Management Guide

Weitere Informationen »

Blog

Amazon EMR Studio (Vorschau): Eine neue Notebook-First-IDE-Erfahrung mit Amazon EMR
9. Dezember 2020

Weitere Informationen »

Blog

Orchestrieren von Analyseaufträgen auf Amazon EMR-Notebooks mit Amazon MWAA
27. Januar 2021

Weitere Informationen »

EMR-Migrationsleitfaden lesen
Migrationsfaden lesen

Erfahren Sie, wie Sie Big Data von lokalen Speicherorten zu AWS migrieren.

Weitere Informationen 
Für ein kostenloses AWS-Konto registrieren
Für ein kostenloses Konto registrieren

Sie erhalten sofort Zugriff auf das kostenlose AWS-Kontingent. 

Registrieren 
Beginnen Sie mit der Entwicklung mit EMR in der Konsole
Beginnen Sie mit der Entwicklung in der Konsole

Beginnen Sie die Erstellung mit Amazon EMR in der AWS-Konsole.

Anmeldung