一桥飞架南北-中国区与 Global 区域 DynamoDB 表双向同步 (下)

在《一桥飞架南北-中国区与Global区域DynamoDB 表双向同步（上）》中我们介绍了通过lambda、DynamoDB stream、kinesis stream等托管服务实现中国区与Global区域DynamoDB表之间数据双活同步的架构与准备工作，本文将介绍后续的部署，测试乃至监视步骤，希望能给您一些有益的启示。

1.7 创建send to kinesis 的lambda函数

新加坡区域

创建lambda

创建python lambda function命名为ddb-send-to-kinesis，上传ddb_send_to_kinesis的Lambda代码，代码请见send_to_kinesis.py

zip send_kinesis.zip send_to_kinesis.py
aws lambda create-function --role arn:aws:iam::<Global account>:role/ddb_send_to_kinesis_role --runtime python3.7 --function-name ddb_send_to_kinesis --handler send_to_kinesis.lambda_handler --zip-file fileb://send_kinesis.zip --timeout 60 --region ap-southeast-1

设置环境变量

为lambda添加五个环境变量，第一个用来从parameter store中获取中国区的Access Key和Secret Key的路径

Key	Value
PARAMETER_STORE_PATH_PREFIX	/DDBReplication/TableCN/
TARGET_REGION	cn-north-1
TARGET_STREAM	ddb_replication_stream_cn
USE_PROXY	FALSE
PROXY_SERVER	<China region proxy IP>:<port>

aws lambda update-function-configuration --function-name ddb_send_to_kinesis --environment "Variables={PARAMETER_STORE_PATH_PREFIX=/DDBReplication/TableCN/, TARGET_REGION=cn-north-1, TARGET_STREAM=ddb_replication_stream_cn, USE_PROXY=FALSE,PROXY_SERVER=<China region proxy IP>:<port>}"

创建触发器

通过lambda页面选中ddb_send_to_kinesis，而后选择add trigger，下拉框中选择DynamoDB，而后填写以下信息：

从DynamoDB console获取我们开启的DDB stream的ARN，填写到DDB table处
将SQS：ddbstreamsg的arn填写到On-failure destination处
Concurrent batches per shard设为10
Batch size设为500
Retry attempts: 300
Maximum age of record: 1 Day
Timeout设置为1分钟

通过命令查询

aws lambda list-event-source-mappings --function-name ddb_send_to_kinesis --region ap-southeast-1

将lambda置于VPC内

在lambda页面选中ddb_send_to_kinesis，在VPC界面进行设置，选中两个AZ中的私有子网，并选择预先设置好security group，向北京区代理服务器的EIP网段开放http/https接口

北京区域

创建lambda

创建python lambda function命名为ddb-send-to-kinesis，上传ddb_send_to_kinesis的Lambda代码，编辑send_to_kinesis.py，代码请见send_to_kinesis.py

zip send_kinesis.zip send_to_kinesis.py
aws lambda create-function --role arn:aws-cn:iam::<China account>:role/ddb_send_to_kinesis_role --runtime python3.7 --function-name ddb_send_to_kinesis --handler send_to_kinesis.lambda_handler --zip-file fileb://send_kinesis.zip --timeout 60 --region cn-north-1

设置环境变量

为lambda添加五个环境变量，第一个用来从parameter store中获取中国区的Access Key和Secret Key的路径

Key	Value
PARAMETER_STORE_PATH_PREFIX	/DDBReplication/TableSG/
TARGET_REGION	ap-southeast-1
TARGET_STREAM	ddb_replication_stream_sg
USE_PROXY	FALSE
PROXY_SERVER	<Singapore region proxy IP>:<port>

aws lambda update-function-configuration --function-name ddb_send_to_kinesis --environment "Variables={PARAMETER_STORE_PATH_PREFIX=/DDBReplication/TableSG/,TARGET_REGION=ap-southeast-1,TARGET_STREAM=ddb_replication_stream_sg,USE_PROXY=FALSE,PROXY_SERVER=<Singapore region proxy IP>:<port>}"

创建触发器

通过lambda页面选中ddb_send_to_kinesis，而后选择add trigger，下拉框中选择DynamoDB，而后填写以下信息：

从DynamoDB console获取我们开启的DDB stream的arn，填写到DDB table处
将SQS：ddbstreamcn的arn填写到On-failure destination处
Concurrent batches per shard设为10
Batch size设为500
Retry attempts: 300
Maximum age of record: 1 Day。
Timeout设置为1分钟

aws lambda list-event-source-mappings --function-name ddb_send_to_kinesis --region cn-north-1

将lambda置于VPC内

在lambda页面选中ddb_send_to_kinesis，在VPC界面进行设置，选中两个AZ中的私有子网，并选择预先设置好security group，向新加坡区代理服务器的EIP网段开放http/https接口

1.8 创建消费Kinesis Stream的Lambda函数

新加坡区域

创建lambda

创建python lambda function命名为replicator_kinesis，上传replicator_kinesis的Lambda代码，代码请见 replicator_kinesis.py

zip replicator_kinesis.zip replicator_kinesis.py
aws lambda create-function --role arn:aws:iam::<Global account>:role/replicator_kinesis_role --runtime python3.7 --function-name replicator_kinesis --handler replicator_kinesis.lambda_handler --zip-file fileb://replicator_kinesis.zip --timeout 60 --region ap-southeast-1

设置环境变量

aws lambda update-function-configuration --function-name replicator_kinesis --environment "Variables={TARGET_TABLE=user-sg}"

创建触发器

通过lambda页面选中replicator_kinesis，而后选择add trigger，下拉框中选择Kinesis，而后填写以下信息：

下拉菜单中选取ddb_replication_stream_sg
将SQS：ddbreplicatorsg的arn填写到On-failure destination处
Concurrent batches per shard：10
Batch size：500
Retry attempts:100

北京区域

创建lambda

创建python lambda function命名为replicator_kinesis，上传replicator_kinesis的Lambda代码，代码请见 replicator_kinesis.py

zip replicator_kinesis.zip replicator_kinesis.py
aws lambda create-function --role arn:aws-cn:iam::<China account>:role/replicator_kinesis_role --runtime python3.7 --function-name replicator_kinesis --handler replicator_kinesis.lambda_handler --zip-file fileb://replicator_kinesis.zip --timeout 60 --region cn-north-1

设置环境变量

aws lambda update-function-configuration --function-name replicator_kinesis --environment "Variables={TARGET_TABLE=user-cn}"

创建触发器

通过lambda页面选中replicator_kinesis，而后选择add trigger，下拉框中选择Kinesis，而后填写以下信息：

下拉菜单中选取ddb_replication_stream_cn
将SQS：ddbreplicatorcn的arn填写到On-failure destination处
Concurrent batches per shard：10
Batch size：500
Retry attempts:100

2、测试

2.1、准备加载数据脚本

在北京和新加坡的代理服务器上，生成load_items.py,代码请见 load_items.py

2.2、测试

单进程加载执行python3 load_items.py -n 20000 -r sg，其中：

-n后的参数是加载记录数量，本例中是加载20000条记录
-r后是指定区域，本例是指定Singapore

多进程并发加载可以执行seq 5 | parallel -N0 –jobs 0 “python3 load_items.py -n 20000 -r sg”，其中：

seq后是并发数，本例中选择5个并发进程，每个加载20000行数据

为了模拟两个region同时有大量本地写DynamoDB的场景，我们在北京和新加坡的压测机上同时运行并发加载测试。

在运行过程中，我们可以通过监控DynamoDB表的Write Capacity图表，可以看到WCU达到了500以上。值得注意的是，在双向复制的测试中，既有压测进程在写入DynamoDB表，同时有lambda在复制来自对端的数据，因此观察到的WCU是两者的叠加。如果是同样测试条件下做单向复制的测试，那会观察到WCU大约是前者的一半。

2.3、监控lambda

通过lambda console的monitor对lambda运行情况进行监控，以下几个指标要关注。

2.4、通过replicator_stats记录复制数量

在本实验中，为了方便查询复制记录的总数，每当load_items.py向名为user-*的DynamoDB表中加载记录都会向本region的loader_stats表中记录加载记录数，此后每当对端region的lambda replicator_kinesis向同region名为user-*的DynamoDB表中成功写入记录时就会累加在replicator_stats表的replicated_count值，故而可以通过比较replicator_stats表的replicated_count值与load_items中插入的记录总数来掌握整个复制进度。

譬如我在中国区压测机上运行seq 5 | parallel -N0 –jobs 0 “python3 load_items.py -n 20000 -r cn”也就是用5个进程模拟向user-cn表插入记录，每个进程插入20000条，总计100000条记录，可以在中国区的loader_stats表中看到插入条目统计值为100000。并且，我们从北京区的loader_stats以及新加坡区的replicator_stats中可以看到加载和复制完成记录数。

2.5、通过cloudwatch监控metrics

在通过load_items.py向DynamoDB表中加载数据时会向cloudwatch中输出metrics Total_loaded，该metrics会记录每个load_items.py加载数据的总数，通过cloudwatch的console我们可以图形化展示该metrics，可以在CloudWatch Metrics->DDB-Loader->loader找到这个图表。下图选取的

在通过replicator_kinesis lambda向DynamoDB表中加载数据时同样会向cloudwatch中输出2个metrics ，其中：

Total_replicated 记录了向目标DynamoDB表中复制数据的总量
Updated_count记录了每次调用lambda复制数据的数量

过cloudwatch的console我们可以图形化展示2个metrics，下图Total_replicated选择30秒周期内的最大值，我们可以从中掌握复制数据的情况，而Updated_count选择总数可以从曲线中判断复制速率是否稳定，如果波动较大，要考虑是否网络或者程序出现问题。

另外，我们可以比较Total_loaded和Total_replicated的时间点来分析复制的时延。在这个实验中，压测机在07：31：42UTC时间完成测试，Total_loaded达到100K条，而复制端在07：32：16UTC时间复制完成，达到100K条，总体时延34秒。

通过两篇blog，我们介绍了如何通过lambda、DynamoDB stream、Kinesis Stream等托管服务实现中国区与Global区域DynamoDB表之间数据双活复制同步，其中包含了架构、部署步骤以及监控方法，希望当您有类似需求的时候，能从中获得启发，助力业务发展。

附录

《Amazon DynamoDB开发人员指南》

《AWS Lambda开发人员指南》

亚马逊AWS官方博客

一桥飞架南北-中国区与 Global 区域 DynamoDB 表双向同步 (下)

1.7 创建send to kinesis 的lambda函数

新加坡区域

创建lambda

设置环境变量

创建触发器

将lambda置于VPC内

北京区域

创建lambda

设置环境变量

创建触发器

将lambda置于VPC内

1.8 创建消费Kinesis Stream的Lambda函数

新加坡区域

创建lambda

设置环境变量

创建触发器

北京区域

创建lambda

设置环境变量

创建触发器

2、测试

2.1、准备加载数据脚本

2.2、测试

2.3、监控lambda

Invocations

中国区ddb_send_to_kinesis

新加坡区replicator_kinesis

Duration

中国区ddb_send_to_kinesis

新加坡区replicator_kinesis

Error count and success rate (%)

中国区ddb_send_to_kinesis

新加坡区replicator_kinesis

IteratorAge

中国区ddb_send_to_kinesis

新加坡区replicator_kinesis

Concurrent executions

中国区ddb_send_to_kinesis

新加坡区replicator_kinesis

2.4、通过replicator_stats记录复制数量

2.5、通过cloudwatch监控metrics

附录

本篇作者