发布于: Feb 9, 2023
今天,我们要为 Amazon EMR on EKS 引入一项新功能,以提高作业执行弹性。到目前为止,用户需要在 Amazon EMR on EKS 之外构建自己的自定义作业执行重试机制,以确保在出现故障时,他们的 Spark 作业能够继续运行。借助此功能,用户现在可以让 Amazon EMR on EKS 在出现故障时自动重新提交作业,从而节省时间并使业务关键型和长时间运行的流工作负载保持运行。
对于作业重试,您通过提供限制执行的尝试次数来定义重试策略之后,Amazon EMR on EKS 将在每次作业执行期间强制执行和监控此策略,以便您通过 DescribeJobRun API 和 AWS CloudWatch 事件查看执行的每次重试。