亚马逊AWS官方博客
利用 AWS Transit Gateway 和 SD-WAN 优化企业全球组网
我们已有同事介绍过利用SD-WAN和专线实现混合组网的高可用方案,那在 Gartner 魔力象限中的相关产品还具备更加丰富的功能,例如多链路捆绑,实时链路质量检测,链路优化等功能,可以细粒度提高核心应用的链路质量和用户体验。本文主要介绍某客户在混合云部署实践中的架构演进,以及利用 SD-WAN 和 AWS Transit Gateway 产品不断优化其全球网络和业务体验的实践,供广大用户参考。
网络架构演进历史:
该客户在全球各大洲都拥有办事处,产品覆盖全球180多个国家和地区。众多的海外员工、客户及分支机构使其迫切需要建立自己的覆盖全球的 IT 网络,以服务业务发展需求,从2014年开始,该客户就开始使用 AWS 全球资源实现业务部署,在业务发展初期的混合云网络架构如下:
图1 初始架构
其业务部署在全球 AWS 多个 region,利用两根运营商专线,分别连接美洲和亚欧。利用Direct connect gateway 连接多个 region 多个账号下的 VPC。而 AWS 上的 VPC 之间,根据实际业务互通需求通过 VPC peering 实现互连。
该方案在一段时间内满足了各业务部门的需求,但也出现了一些问题,例如两根运营商线路未能实现冗余备份,如果遇到运营商线路故障,业务就会受到影响。
针对该困扰,我们和客户一起进行了架构优化,调整专线方案,在原有专线接入点各增加一个虚拟子接口,交叉接入另外一个 Direct connect gateway,实现线路冗余备份。
- 在杭州数据中心利用 Local Preference 进行线路选择;
- 从 AWS 到杭州数据中心的选路,则利用 Customer gateway 发布路由时携带的 BGP community 属性值来控制,具体可以参考文档中的“本地首选项 BGP 社区”部分。
图2 专线高可用改造
结合 Transit Gateway 和 SD-WAN 的组网方案
随着业务的蓬勃发展,海外应用部署逐渐增加,和杭州本地数据中心之间同步数据量越来越大,原有专线带宽出现瓶颈,为了满足不断增长的带宽需求同时保障关键业务性能,引入 SD-WAN 产品,利用已有电信 CN2 精品宽带提升广域网链路带宽,降低带宽升级成本,提升组网灵活性,并可根据链路质量及负载去动态调度应用路径,提供差异化服务,优先保障语音、视频等实时性要求较高业务,全面提升全球用户办公体验。
图3 结合 Transit Gateway 和 SD-WAN 的部署方案
- 在AWS侧每个region利用Transit Gateway + Transit VPC的架构改造原专线接入方式,专线从各region的Edge VPC接入到SD-WAN主设备,在引入Transit Gateway的情况不增加专线成本,升级更平滑;
- 在Edge VPC中部署SD-WAN设备,本地SD-WAN设备和云端的SD-WAN设备分别通过专线以及internet各自建立VPN隧道,并且进行链路捆绑,基于流及链路状态实现负载分担或选路。
- 海外的大型分支机构同样采用专线及internet两种方式就近接入AWS对应region的Edge VPC。通过Edge VPC中的SD-WAN设备和杭州IDC实现路由互通和流量转发。
- 海外的小型分支机构则利用Transit Gateway的accelerate VPN 功能接入到Transit Gateway,从而接入整个公司网络,用户也可以通过 Transit Gateway的路由表来控制其可访问的网络域。
- 下面是一个简化后的详细路由表配置示例:
图4 详细路由配置说明
这部分详细讲解和动手实验可以参考另外一篇 Transit Gateway 相关 blog。
SD-WAN 产品会在原有网络基础上创建自己的 overlay 网络,如下图所示,控制器会监控各个节点的公网地址、带宽能力等,基于专线和互联网建立各自独立的隧道,所有互联网接口之间可以建立起 full-mesh 的全网状隧道。关于更加细节的各家产品的动态多路径优化技术不做详细阐述,请参考相关产品官网。
图5 overlay 网络架构
关于该架构中的高可用说明:
- 双机集群部署: 杭州机房、海外大型分支机构、AWS 各个 region 的 SD-WAN 节点均采用高可用双机集群架构部署,实现故障快速切换。
- 全连接架构: 全球任意 SD-WAN 节点之间使用物理专线或互联网线路实现 Full-Mesh 全连接,任意线路故障都可实现快速收敛,确保业务交互不丢包,链路中断时业务可平滑过渡。
- 办公体验优化:识别非办公应用流量并限速,提升各地分支机构办公体验。
- 广域网传输优化:多链路捆绑负载,实时链路质量检测,根据流量标签动态调度,保障关键应用传输质量。
- 入网更灵活:作为互联网接入网关,替换分支路由器,支持专线、宽带、4G等多场景网络接入。
- 杭州机房到全球 AWS region 提速明显,Iperf TCP 压测速率可达到原专线带宽八倍。
- 每日各类应用的定时任务、备份任务、数据抽取等非实时业务再也没有造成核心业务的中断和性能下降。
- 全球终端用户及分支机构访问内部站点(页面大小995KB)提速明显,关闭页面缓存情况下,实测效果如下:
区域 | 国家 | 优化前加载时间 | 优化后加载时间 | 提速百分比 |
北非 | 突尼斯-办公室 | 5.73 | 3.72 | 35% |
北非 | 摩洛哥-办公室 | 4.84 | 3.04 | 37% |
北非 | 阿尔及利亚-宿舍 | 8.24 | 6.85 | 17% |
北非 | 肯尼亚-办公室 | 5.44 | 3.90 | 25% |
南非 | 南非-办公室 | 6.76 | 4.91 | 27% |
欧洲 | 荷兰-办公室 | 2.72 | 2.01 | 25% |
欧洲 | 德国- AWS测试机 | 2.50 | 1.89 | 23% |
分支机构接入的两种方案:
- 大型分支机构: 专线 + VPN
优化广域网传输,实现专线和 VPN 的多链路捆绑负载,实时链路质量检测,根据应用动态调度,保障关键应用传输质量,识别非办公应用流量并限速,提升当地上网办公体验。
- 小型办公室: 加速VPN
优化分支VPN接入,使用AWS Transit Gateway 提供的Accelerate VPN 功能,可就近接入 AWS 边缘节点,提升互联网 VPN 网络交互稳定性。通过 Transit Gateway 支持的 ECMP 功能创建多条 VPN 隧道,实现多链路捆绑。同样通过 SD-WAN 产品识别非办公应用流量并限速,保障关键应用。
下面表格是客户针对 Gartner 中部分品牌进行的对比测试结果,受限于测试条件和时间,仅供读者参考:
链路检测 优化算法 |
测试 | 品牌A | 品牌B | 品牌C |
链路检测 | 检测指标:丢包、延时、抖动 检测技术:业务报文封装检测报头,实时检测,如无业务报文将每隔50ms的速率发送TRP检测包,200ms内可感知链路中断 | 检测指标:丢包、延时、抖动 检测技术: Ping 检测,默认间隔500ms | 检测指标:丢包、延时、抖动 检测技术:业务报文预留检测报文头,实时检测 | |
链路优化 | FEC-丢包复制 包负载分担 HDX协议优化,使虚拟桌面具备更好业务体验 | FEC-丢包复制 流负载分担 | FEC-丢包复制 TCP丢包重传优化 包和流负载分担 | |
广域网加速 | TCP单连接压测 | 7.45Mbps | 4 Mbps | 7.5 Mbps |
TCP双连接压测 | 14.9Mbps | 8 Mbps | 11 Mbps | |
TCP四连接压测 | 29.8Mbps | 16 Mbps | 18 Mbps | |
UDP 50Mbps单连接压测 | 23.0 Mbps 3.599 ms 65975/122638 (54%) | 49.7 Mbps 0.015 ms 9/ 6081 (0.15%) | 9.1 Mbps 0.159 ms 2973/122695 (2.4%) | |
UDP 25Mbps双连接压测 | 15.0 Mbps 0.101 ms 24573/61129 (40%) | 24.8 Mbps 0.019 ms 34/ 3061 (1.1%) | 4.9 Mbps 0.384 ms 38/61161 (0.062%) | |
FTP应用压测 | 14 Mbps | 8.48 Mbps | 6.44 Mbps |
总结:
从该客户的全球网络架构演进案例可以看出,我们的客户可以充分利用 AWS 全球网络资源构建属于自己的私有网络,服务业务部门走向全球。利用 AWS Direct Connect Gateway、Transit Gateway 等产品能实现多 region 跨账号复杂组网,架构也具有极高的可用性和灵活性,结合 SD-WAN 广域网产品可以充分利用互联网带宽,满足更多业务精细化管理的需求。