投稿日: Sep 19, 2022
リリース 6.7.0 以降の EKS での Amazon EMR には、StartJobRun API を介して Apache Spark SQL スクリプトを実行する機能が含まれていることをお知らせします。Spark SQL は、構造化データ処理用の Spark モジュールです。Spark DataFrame API とは異なり、Spark SQL インターフェイスは、実行中のデータと計算の両方の構造について、より多くの情報を Spark に提供します。内部的には、Spark SQL はこの追加情報を使用して、さらに最適化を実行します。このリリースでは、EKS の StartJobRun API を介した Amazon EMR を使用して、Spark SQL クエリと Spark SQL ベースの ETL パイプラインを直接実行できます。
EKS ユーザーの Amazon EMR は、StartJobRun API を使用して Spark ジョブを開始します。 以前は、Spark SQL スクリプトを実行するには SQL スクリプトを PySpark などのインターフェイスに埋め込む必要があり、既存の Spark SQL スクリプトをユーザーが変更する必要がありました。このリリースの一部として、新しい Spark SQL ジョブドライバーが、ユーザーが Spark ジョブを実行するために使用する EKS のベースイメージでの Amazon EMR に追加されます。ユーザーは、既存の Spark SQL スクリプトを変更することなく、StartJobRun API を直接使用して EKS での Amazon EMR で Spark SQL クエリを実行するための SQL エントリポイントファイルを提供できるようになりました。この機能は、EKS での Amazon EMR を使用できるすべてのリージョンで利用できます。
EKS での Amazon EMR で Spark SQL スクリプトを実行する方法の詳細については、ドキュメントページをご覧ください。