投稿日: Oct 20, 2020

AWS Batch で、定義された終了コードに基づいて、ユーザーが再試行戦略を設定できるようになりました。インフラストラクチャの障害やアプリケーションの障害などの指定されたイベントに基づいて、AWS Batch ジョブを再試行するか決定できるようになりました。これにより、ジョブの失敗時に実行されるアクションを厳密に制御できます。その結果、必要な場合にのみ再試行することで、コストを削減し、スループットを向上させることができます。

バッチジョブの再試行が必要になる理由はさまざまです。アプリケーションがインスタンスで大量のメモリを消費していたり、ジョブがコードを正常に実行するために必要な特定のファイルにアクセスできないなどの可能性があります。失敗した理由に関係なく、特に割り込み可能なスポットインスタンスを使用してコストを削減したいお客様にとって、再試行を許可することが必要になることがよくあります。 

本日より、AWS Batch では、失敗コードの範囲に基づいてジョブを再試行するかどうかを指定できるようになります。これにより、お客様は再試行戦略を簡単に設定できます。たとえば、スポットによって回収されたインスタンスにジョブがあるために失敗した場合、再試行します。これに対して、メモリを大量に消費しているために失敗した場合は、ジョブは再試行せずに失敗し、ユーザーに通知します。 

AWS Batch での再試行戦略の設定についての詳細は、ドキュメントを参照して下さい。