发布于: Feb 9, 2023

今天,我们要为 Amazon EMR on EKS 引入一项新功能,以提高作业执行弹性。到目前为止,用户需要在 Amazon EMR on EKS 之外构建自己的自定义作业执行重试机制,以确保在出现故障时,他们的 Spark 作业能够继续运行。借助此功能,用户现在可以让 Amazon EMR on EKS 在出现故障时自动重新提交作业,从而节省时间并使业务关键型和长时间运行的流工作负载保持运行。

对于作业重试,您通过提供限制执行的尝试次数来定义重试策略之后,Amazon EMR on EKS 将在每次作业执行期间强制执行和监控此策略,以便您通过 DescribeJobRun APIAWS CloudWatch 事件查看执行的每次重试。 

现在,从 Amazon EMR 6.9 及更高版本开始,作业执行重试次数在提供 Amazon EMR on EKS 的所有 AWS 区域全面推出。要了解有关如何使用作业驱动程序容器组重试次数的更多信息,请访问我们的文档