如何对使用亚马逊云科技开发工具包调用 Lambda 函数时出现的重试和超时问题进行故障排查?

上次更新时间:2021 年 3 月 18 日

当我使用亚马逊云科技开发工具包调用 Amazon Lambda 函数时,该函数超时、API 请求停止响应,或者 API 操作重复。如何对这些问题进行故障排除?

简短描述

使用亚马逊云科技开发工具包调用 Lambda 函数时出现重试和超时问题的原因有三个:

  • 无法访问远程 API,或者需要太长时间来响应 API 调用。
  • API 调用未在套接字超时内收到响应。
  • API 调用未在 Lambda 函数的超时期内收到响应。

注意:当发生网络连接问题时,API 调用需要的时间可能比预期的长。网络问题还可能会造成重试和重复的 API 请求。要为这些情况做好准备,请确保您的 Lambda 函数保持幂等性

如果您使用亚马逊云科技开发工具包进行 API 调用且调用失败,则该亚马逊云科技开发工具包会自动重试调用。亚马逊云科技开发工具包重试的次数和时间由每个亚马逊云科技开发工具包间不同的设置决定。

默认亚马逊云科技开发工具包重试设置

注意:对于其他亚马逊云科技服务,某些值可能会有所不同。

亚马逊云科技开发工具包 最大重试次数 连接超时 套接字超时
Python (Boto 3) 取决于服务 60 秒 60 秒
JavaScript/Node.js 取决于服务 不适用 120 秒
Java 3 10 秒 50 秒
.NET 4 100 秒 300 秒
Go 3 不适用 不适用

要排查重试和超时问题,请先查看 API 调用日志以查找问题。然后,根据需要为每个使用案例更改亚马逊云科技开发工具包的重试次数和超时设置。要允许足够的时间对 API 调用作出响应,请添加时间至 Lambda 函数超时设置

解决方法

记录亚马逊云科技开发工具包进行的 API 调用

使用 Amazon CloudWatch Logs,您可以获取有关失败连接和重试次数的详细信息。有关更多信息,请参阅访问 Amazon Lambda 的 Amazon CloudWatch Logs。或者参阅所使用的亚马逊云科技开发工具包的说明:

API 调用建立连接失败的错误日志示例(套接字超时)

START RequestId: b81e56a9-90e0-11e8-bfa8-b9f44c99e76d Version: $LATEST
2018-07-26T14:32:27.393Z    b81e56a9-90e0-11e8-bfa8-b9f44c99e76d    [AWS ec2 undefined 40.29s 3 retries] describeInstances({})
2018-07-26T14:32:27.393Z    b81e56a9-90e0-11e8-bfa8-b9f44c99e76d    { TimeoutError: Socket timed out without establishing a connection

...

API 响应花费太长时间后连接超时的错误日志示例(连接超时)

START RequestId: 3c0523f4-9650-11e8-bd98-0df3c5cf9bd8 Version: $LATEST
2018-08-02T12:33:18.958Z    3c0523f4-9650-11e8-bd98-0df3c5cf9bd8    [AWS ec2 undefined 30.596s 3 retries] describeInstances({})
2018-08-02T12:33:18.978Z    3c0523f4-9650-11e8-bd98-0df3c5cf9bd8    { TimeoutError: Connection timed out after 30s

注意:如果 API 请求未在您的 Lambda 函数超时内收到响应,则不会生成这些日志。如果 API 请求因为函数超时而结束,则尝试下列各项之一:

  • 更改开发工具包的重试设置,以在超时内进行所有重试。
  • 暂时提高 Lambda 函数超时设置,以留出充足的时间来生成开发工具包日志。

更改亚马逊云科技开发工具包的设置

亚马逊云科技开发工具包的重试次数和超时设置应留出充足的时间来让 API 调用接收响应。要确定每个设置的正确值,测试不同的配置并获取以下信息:

  • 成功建立连接的平均时间
  • 完整的 API 请求所需的平均时间(直到它成功返回)
  • 重试应由亚马逊云科技开发工具包还是由代码进行

有关更改重试次数和超时设置的更多信息,请参阅以下亚马逊云科技开发工具包客户端配置文档:

以下是一些示例命令,用于更改每个运行时的重试计数和超时设置。

重要提示:在使用以下任一命令之前,请将每个设置的示例值替换为适用于您的使用案例的值。

用于更改重试计数和超时设置的 Python (Boto 3) 命令示例

# max_attempts: retry count / read_timeout: socket timeout / connect_timeout: new connection timeout

from botocore.session import Session
from botocore.config import Config

s = Session()
c = s.create_client('s3', config=Config(connect_timeout=5, read_timeout=60, retries={'max_attempts': 2}))

用于更改重试计数和超时设置的 JavaScript/Node.js 命令示例

// maxRetries: retry count / timeout: socket timeout / connectTimeout: new connection timeout

var AWS = require('aws-sdk');

AWS.config.update({

    maxRetries: 2,

    httpOptions: {

        timeout: 30000,

        connectTimeout: 5000

    }

});

用于更改重试计数和超时设置的 Java 命令示例

// setMaxErrorRetry(): retry count / setSocketTimeout(): socket timeout / setConnectionTimeout(): new connection timeout

ClientConfiguration clientConfig = new ClientConfiguration(); 

clientConfig.setSocketTimeout(60000); 
clientConfig.setConnectionTimeout(5000);
clientConfig.setMaxErrorRetry(2);

AmazonDynamoDBClient ddb = new AmazonDynamoDBClient(credentialsProvider,clientConfig);

用于更改重试计数和超时设置的 .NET 命令示例

// MaxErrorRetry: retry count / ReadWriteTimeout: socket timeout / Timeout: new connection timeout

var client = new AmazonS3Client(

    new AmazonS3Config {
        Timeout = TimeSpan.FromSeconds(5),
        ReadWriteTimeout = TimeSpan.FromSeconds(60),
        MaxErrorRetry = 2
});

用于更改重试计数设置的 Go 命令示例

// Create Session with MaxRetry configuration to be shared by multiple service clients.
sess := session.Must(session.NewSession(&aws.Config{
    MaxRetries: aws.Int(3),
}))
 
// Create S3 service client with a specific Region.
svc := s3.New(sess, &aws.Config{
    Region: aws.String("us-west-2"),
})

用于更改请求超时设置的 Go 命令示例

ctx, cancel := context.WithTimeout(context.Background(), 5*time.Second)
defer cancel()
// SQS ReceiveMessage
params := &sqs.ReceiveMessageInput{ ... }
req, resp := s.ReceiveMessageRequest(params)
req.HTTPRequest = req.HTTPRequest.WithContext(ctx)
err := req.Send()

(可选)更改您的 Lambda 函数超时设置

Lambda 函数超时低可能会导致运行状况良好的连接过早断开。如果您的使用案例发生此情况,请提高函数超时设置,以允许足够的时间让您的 API 调用收到响应。

使用以下公式估计函数超时所需的基本时间:

First attempt (connection timeout + socket timeout) + Number of retries x (connection timeout + socket timeout)

例如,假设亚马逊云科技开发工具包配置为进行 3 次重试,连接超时 10 秒且套接字超时 30 秒。在此情况下,Lambda 函数超时应至少为 160 秒:

First attempt (10 seconds + 30 seconds) + Number of retries [3 * (10 seconds + 30 seconds)] = 160 seconds

增加额外的时间界限(例如 20 秒),以处理余下的代码运行时:

160 + 20 = 180 seconds

这篇文章对您有帮助吗?


您是否需要账单或技术支持?