Veröffentlicht am: Sep 19, 2022
Wir freuen uns, ankündigen zu können, dass Amazon EMR auf EKS Version 6.7.0 und neuer die Fähigkeit zur Ausführung von Apache Spark SQL-Skripten über die StartJobRun API umfasst. Spark SQL ist ein Spark-Modul zur strukturierten Datenverarbeitung. Anders als die Spark DataFrame API stellen Spark SQL-Schnittstellen Spark mehr Informationen zur Struktur sowohl der Daten wie auch der durchgeführten Berechnungen zur Verfügung. Intern verwendet Spark SQL diese zusätzlichen Informationen für weitere Optimierungen. Mit dieser Veröffentlichung können Sie Spark SQL-Abfragen und Spark SQL-basierte ETL-Pipelines direkt über die StartJobRun-API von Amazon EMR auf EKS ausführen.
Benutzer von Amazon EMR auf EKS verlassen sich zum Starten von Spark-Jobs auf die StartJobRun-API. Zuvor mussten Benutzer zur Ausführung von Spark SQL-Skripten ihre SQL-Skripte in Schnittstellen wie PySpark einbetten, was Benutzermodifizierungen an bestehenden Spark SQL-Skripten erforderte. Im Rahmen dieser Veröffentlichung wurde ein neuer Spark SQL Job-Treiber zum Basis-Image von Amazon EMR auf EKS hinzugefügt, mit dem Benutzer ihre Spark-Jobs ausführen können. Benutzer können nun direkt SQL-Einstiegspunktdateien zur Ausführung von Spark SQL-Abfragen auf Amazon EMR auf EKS mithilfe der StartJobRun-API ausführen, ohne bestehende Spark SQL-Skripte anpassen zu müssen. Diese Funktion ist in allen Regionen verfügbar, in denen Amazon EMR auf EKS verfügbar ist.
Um mehr über die Ausführung von Spark SQL-Skripten auf Amazon EMR auf EKS zu erfahren, besuchen Sie bitte die Seite Dokumentation.