投稿日: Feb 9, 2023

Amazon EMR on EKS に、ジョブ実行の回復力が向上する新機能が追加されました。これまで、Spark ジョブの実行を障害発生時にも継続するには、Amazon EMR on EKS 外部のジョブ実行再試行メカニズムを独自に構築する必要がありました。今回の新機能により、Amazon EMR on EKS は障害発生時にジョブを自動で再送信できます。ユーザーは時間を節約しつつ、ビジネスクリティカルかつ長期的なストリーミングワークロードを継続的に実行可能です。

実行の試行回数の上限を指定して再試行ポリシーを定義すると、Amazon EMR on EKS は各ジョブの実行中にこのポリシーを適用およびモニタリングします。各再試行の状況は、DescribeJobRun APIAWS CloudWatch イベントによって確認可能です。 

ジョブ実行の再試行機能は、Amazon EMR on EKS を利用できるすべての AWS リージョンで一般提供されています。現時点での対応リリースバージョンは Amazon EMR 6.9 以降です。ジョブドライバーポッドの再試行機能の詳細な使用方法は、ドキュメントでご確認ください。