Veröffentlicht am: Nov 6, 2019
Sie können nun Ihre Apache Spark-Aufgaben debuggen und überwachen, indem Sie sich über die EMR-Konsole direkt bei dem persistenten, außerhalb des Clusters ausgeführten Verlaufsserver von Apache Spark anmelden.
Der Spark-Verlaufsserver ist eine Erweiterung der Apache Spark-Weboberfläche. Er bietet eine grafische Schnittstelle zur Anzeige umfassender Informationen über abgeschlossene und laufende Spark-Aufgaben eines Clusters. Sie können Details zu aufgabenspezifischen Kennwerten aufrufen sowie Informationen zu Planungsstufen, Aufgaben und aktuellen Executors anzeigen.
Der Spark-Verlaufsserver wird von Amazon EMR nun zusammen mit den Ereignis- und Containerprotokollen persistent außerhalb des Clusters sowie unabhängig vom Lebenszyklus des Clusters ausgeführt. Somit können Sie den Spark-Verlaufsserver für laufende und beendete Cluster gleichermaßen nutzen. Zusätzlich können Sie direkt über die Konsole auf den Spark-Verlaufsserver zugreifen und sind nicht mehr gezwungen, diesen umständlich als Weboberfläche anzuzeigen.
Die Funktion ist für EMR ab Version 5.25 in den Regionen USA Ost (Nord-Virginia und Ohio), USA West (Nordkalifornien und Oregon), Kanada (Zentral), EU (Frankfurt, Irland und London) sowie Asien-Pazifik (Mumbai, Seoul, Singapur, Sydney und Tokio) verfügbar.