投稿日: Feb 9, 2023
Amazon EMR on EKS に、ジョブ実行の回復力が向上する新機能が追加されました。これまで、Spark ジョブの実行を障害発生時にも継続するには、Amazon EMR on EKS 外部のジョブ実行再試行メカニズムを独自に構築する必要がありました。今回の新機能により、Amazon EMR on EKS は障害発生時にジョブを自動で再送信できます。ユーザーは時間を節約しつつ、ビジネスクリティカルかつ長期的なストリーミングワークロードを継続的に実行可能です。
実行の試行回数の上限を指定して再試行ポリシーを定義すると、Amazon EMR on EKS は各ジョブの実行中にこのポリシーを適用およびモニタリングします。各再試行の状況は、DescribeJobRun API と AWS CloudWatch イベントによって確認可能です。