- Amazon EMR
- Funktionen
- EMR Studio
Amazon EMR Studio
Warum EMR Studio?
EMR Studio ist eine integrierte Entwicklungsumgebung (IDE), die es Datenwissenschaftlern und Dateningenieuren erleichtert, in R, Python, Scala und PySpark geschriebene Dateningenieurs- und Datenwissenschafts-Anwendungen zu entwickeln, zu visualisieren und zu debuggen.
EMR Studio bietet vollständig verwaltete Jupyter Notebooks und Tools wie Spark UI und YARN Timeline Service, um das Debugging zu vereinfachen. Datenwissenschaftler und Analysten können benutzerdefinierte Kernels und Bibliotheken installieren, mit Kollegen über Code-Repositories wie GitHub und BitBucket zusammenarbeiten oder parametrisierte Notebooks als Teil geplanter Workflows unter Verwendung von Orchestrierungsdiensten wie Apache Airflow oder Amazon Managed Workflows for Apache Airflow ausführen.
EMR-Studio-Kernels und -Anwendungen werden auf EMR-Clustern ausgeführt, sodass Sie die Vorteile der verteilten Datenverarbeitung mithilfe der leistungsoptimierten Amazon-EMR-Laufzeit für Apache Spark nutzen können. Administratoren können EMR Studio so einrichten, dass Analysten ihre Anwendungen auf bestehenden EMR-Clustern ausführen oder neue Cluster mit vordefinierten AWS CloudFormation-Vorlagen für EMR erstellen können.
Einfache Verwendung
Vollständig verwaltete Jupyter-Notebooks
Einfach zu erstellende Anwendungen
Vereinfachtes Debugging
Kollaborative Notizbücher in Echtzeit
SQL Explorer
Mehrsprachige Notebooks
Anwendungsfälle
-
Mit EMR Studio können Sie Notebooks in Sekundenschnelle starten, mit Beispielnotebooks integriert werden und Ihre Datenexploration durchführen. Sie können mit Kollegen über die integrierte Zusammenarbeit in Echtzeit zusammenarbeiten und Änderungen über Notebook-Versionen hinweg über Git-Repositories verfolgen. Sie können Ihre Umgebung auch anpassen, indem Sie benutzerdefinierte Kernels und Python-Bibliotheken aus Notebooks laden.
-
In EMR Studio können Sie das Code-Repository verwenden, um Pipelines auszulösen. Sie können auch Notebooks parametrieren und verketten, um Pipelines zu erstellen. Sie können Notebooks mithilfe von Workflow-Orchestrierungsservices wie Apache Airflow oder Amazon Managed Workflows for Apache Airflow in geplante Workflows integrieren. Mit EMR Studio können Sie auch Notebooks erneut an einen größeren Cluster anfügen, um einen Auftrag auszuführen.
-
In EMR Studio können Sie Notebook-Anwendungen über die Notebook-Benutzeroberfläche debuggen. Sie können Pipelines auch debuggen, indem Sie zunächst Cluster mithilfe von Filtern wie dem Clusterstatus eingrenzen und Aufträge sowohl für aktive als auch für abgeschlossene Cluster mit so wenigen Klicks wie möglich diagnostizieren, um systemeigene Debugbenutzeroberflächen wie Spark UI, Tez UI und Yarn Timeline Service zu öffnen.