Interaktive Workloads auf Amazon EMR Serverless mit Spark Connect ausführen
Amazon EMR Serverless unterstützt nun interaktive Sitzungen mit Spark Connect. Damit können Sie Apache-Spark-Anwendungen in verwalteten Notebooks in Amazon SageMaker Unified Studio sowie in Ihren bevorzugten Notebook-Umgebungen und IDEs wie Jupyter und Visual Studio Code entwickeln und ausführen. Außerdem können Sie aktive und abgeschlossene Sitzungen in der EMR-Konsole überwachen und debuggen sowie detaillierte Kosten- und Nutzungsinformationen für einzelne Sitzungen einsehen.
Eine interaktive Sitzung stellt einen persistenten Spark-Kontext bereit, der sich nahtlos über Zellen und Skripte hinweg erstreckt. So können Sie lokale Python-Codeausführung und entfernte Spark-Operationen in einer einheitlichen Umgebung kombinieren. Ermöglicht wird dies durch die Client-Server-Architektur von Spark Connect. Diese entkoppelt Ihren Anwendung-Client vom Spark-Treiber und erlaubt es Ihnen, Ihre bevorzugte Entwicklungsumgebung und Ihre gewohnten Tools beizubehalten, während die Spark-Infrastruktur unabhängig auf EMR Serverless ausgeführt wird. Diese Architektur unterstützt Workflows wie Ad-hoc-Datenexploration, iteratives Debugging Schritt für Schritt sowie die inkrementelle Entwicklung von PySpark-Jobs vor deren Bereitstellung in der Produktion. Für die Beobachtbarkeit stehen Ihnen eine Echtzeitüberwachung der Sitzungen über die Spark UI, die Nachverfolgung über den Spark History Server sowie die Sitzungsverwaltung über die EMR-Konsole oder per API/CLI/SDK zur Verfügung.
Spark Connect auf Amazon EMR Serverless ist mit EMR-Version 7.13 in allen AWS-Regionen verfügbar, in denen Amazon EMR Serverless angeboten wird. Die SageMaker-Unified-Studio-Erfahrung ist in unterstützten Regionen verfügbar. Besuchen Sie zum Einstieg den Benutzerleitfaden für interaktive EMR-Serverless-Sitzungen oder den Getting-Started-Leitfaden für Amazon SageMaker Unified Studio.