亚马逊AWS官方博客

利用 AWS Transit Gateway 和 SD-WAN 优化企业全球组网

我们已有同事介绍过利用SD-WAN和专线实现混合组网的高可用方案,那在 Gartner 魔力象限中的相关产品还具备更加丰富的功能,例如多链路捆绑,实时链路质量检测,链路优化等功能,可以细粒度提高核心应用的链路质量和用户体验。本文主要介绍某客户在混合云部署实践中的架构演进,以及利用 SD-WAN 和 AWS Transit Gateway 产品不断优化其全球网络和业务体验的实践,供广大用户参考。

网络架构演进历史:

该客户在全球各大洲都拥有办事处,产品覆盖全球180多个国家和地区。众多的海外员工、客户及分支机构使其迫切需要建立自己的覆盖全球的 IT 网络,以服务业务发展需求,从2014年开始,该客户就开始使用 AWS 全球资源实现业务部署,在业务发展初期的混合云网络架构如下:

图1 初始架构

其业务部署在全球 AWS 多个 region,利用两根运营商专线,分别连接美洲和亚欧。利用Direct connect gateway 连接多个 region 多个账号下的 VPC。而 AWS 上的 VPC 之间,根据实际业务互通需求通过 VPC peering 实现互连。

该方案在一段时间内满足了各业务部门的需求,但也出现了一些问题,例如两根运营商线路未能实现冗余备份,如果遇到运营商线路故障,业务就会受到影响。

针对该困扰,我们和客户一起进行了架构优化,调整专线方案,在原有专线接入点各增加一个虚拟子接口,交叉接入另外一个 Direct connect gateway,实现线路冗余备份。

  • 在杭州数据中心利用 Local Preference 进行线路选择;
  • 从 AWS 到杭州数据中心的选路,则利用 Customer gateway 发布路由时携带的 BGP community 属性值来控制,具体可以参考文档中的“本地首选项 BGP 社区”部分。

图2 专线高可用改造

结合 Transit Gateway 和 SD-WAN 的组网方案

随着业务的蓬勃发展,海外应用部署逐渐增加,和杭州本地数据中心之间同步数据量越来越大,原有专线带宽出现瓶颈,为了满足不断增长的带宽需求同时保障关键业务性能,引入 SD-WAN 产品,利用已有电信 CN2 精品宽带提升广域网链路带宽,降低带宽升级成本,提升组网灵活性,并可根据链路质量及负载去动态调度应用路径,提供差异化服务,优先保障语音、视频等实时性要求较高业务,全面提升全球用户办公体验。

具体部署架构如下:

图3 结合 Transit Gateway 和 SD-WAN 的部署方案

  • 在AWS侧每个region利用Transit Gateway + Transit VPC的架构改造原专线接入方式,专线从各region的Edge VPC接入到SD-WAN主设备,在引入Transit Gateway的情况不增加专线成本,升级更平滑;
  • 在Edge VPC中部署SD-WAN设备,本地SD-WAN设备和云端的SD-WAN设备分别通过专线以及internet各自建立VPN隧道,并且进行链路捆绑,基于流及链路状态实现负载分担或选路。
  • 海外的大型分支机构同样采用专线及internet两种方式就近接入AWS对应region的Edge VPC。通过Edge VPC中的SD-WAN设备和杭州IDC实现路由互通和流量转发。
  • 海外的小型分支机构则利用Transit Gateway的accelerate VPN 功能接入到Transit Gateway,从而接入整个公司网络,用户也可以通过 Transit Gateway的路由表来控制其可访问的网络域。
  • 下面是一个简化后的详细路由表配置示例:

图4 详细路由配置说明

这部分详细讲解和动手实验可以参考另外一篇 Transit Gateway 相关 blog

SD-WAN 产品会在原有网络基础上创建自己的 overlay 网络,如下图所示,控制器会监控各个节点的公网地址、带宽能力等,基于专线和互联网建立各自独立的隧道,所有互联网接口之间可以建立起 full-mesh 的全网状隧道。关于更加细节的各家产品的动态多路径优化技术不做详细阐述,请参考相关产品官网。

图5 overlay 网络架构

关于该架构中的高可用说明:

  • 双机集群部署: 杭州机房、海外大型分支机构、AWS 各个 region 的 SD-WAN 节点均采用高可用双机集群架构部署,实现故障快速切换。
  • 全连接架构: 全球任意 SD-WAN 节点之间使用物理专线或互联网线路实现 Full-Mesh 全连接,任意线路故障都可实现快速收敛,确保业务交互不丢包,链路中断时业务可平滑过渡。

通过引入 SD-WAN 的获得的实际业务收益:

  • 办公体验优化:识别非办公应用流量并限速,提升各地分支机构办公体验。
  • 广域网传输优化:多链路捆绑负载,实时链路质量检测,根据流量标签动态调度,保障关键应用传输质量。
  • 入网更灵活:作为互联网接入网关,替换分支路由器,支持专线、宽带、4G等多场景网络接入。
  • 杭州机房到全球 AWS region 提速明显,Iperf TCP 压测速率可达到原专线带宽八倍。
  • 每日各类应用的定时任务、备份任务、数据抽取等非实时业务再也没有造成核心业务的中断和性能下降。
  • 全球终端用户及分支机构访问内部站点(页面大小995KB)提速明显,关闭页面缓存情况下,实测效果如下:
区域 国家 优化前加载时间 优化后加载时间 提速百分比
北非 突尼斯-办公室 5.73 3.72 35%
北非 摩洛哥-办公室 4.84 3.04 37%
北非 阿尔及利亚-宿舍 8.24 6.85 17%
北非 肯尼亚-办公室 5.44 3.90 25%
南非 南非-办公室 6.76 4.91 27%
欧洲 荷兰-办公室 2.72 2.01 25%
欧洲 德国- AWS测试机 2.50 1.89 23%

 

分支机构接入的两种方案:

  • 大型分支机构: 专线 + VPN

优化广域网传输,实现专线和 VPN 的多链路捆绑负载,实时链路质量检测,根据应用动态调度,保障关键应用传输质量,识别非办公应用流量并限速,提升当地上网办公体验。

  • 小型办公室: 加速VPN

优化分支VPN接入,使用AWS Transit Gateway 提供的Accelerate VPN 功能,可就近接入 AWS 边缘节点,提升互联网 VPN 网络交互稳定性。通过 Transit Gateway 支持的 ECMP 功能创建多条 VPN 隧道,实现多链路捆绑。同样通过 SD-WAN 产品识别非办公应用流量并限速,保障关键应用。

 

下面表格是客户针对 Gartner 中部分品牌进行的对比测试结果,受限于测试条件和时间,仅供读者参考:

 

 

 

链路检测 优化算法

测试 品牌A 品牌B 品牌C
链路检测 检测指标:丢包、延时、抖动 检测技术:业务报文封装检测报头,实时检测,如无业务报文将每隔50ms的速率发送TRP检测包,200ms内可感知链路中断 检测指标:丢包、延时、抖动 检测技术: Ping 检测,默认间隔500ms 检测指标:丢包、延时、抖动 检测技术:业务报文预留检测报文头,实时检测
链路优化 FEC-丢包复制 包负载分担 HDX协议优化,使虚拟桌面具备更好业务体验 FEC-丢包复制 流负载分担 FEC-丢包复制 TCP丢包重传优化 包和流负载分担
广域网加速 TCP单连接压测 7.45Mbps 4 Mbps 7.5 Mbps
TCP双连接压测 14.9Mbps 8 Mbps 11 Mbps
TCP四连接压测 29.8Mbps 16 Mbps 18 Mbps
UDP 50Mbps单连接压测 23.0 Mbps 3.599 ms 65975/122638 (54%) 49.7 Mbps 0.015 ms    9/ 6081 (0.15%) 9.1 Mbps 0.159 ms 2973/122695 (2.4%)
UDP 25Mbps双连接压测 15.0 Mbps 0.101 ms 24573/61129 (40%) 24.8 Mbps 0.019 ms   34/ 3061 (1.1%) 4.9 Mbps 0.384 ms   38/61161 (0.062%)
FTP应用压测 14 Mbps 8.48 Mbps 6.44 Mbps

 

总结:

从该客户的全球网络架构演进案例可以看出,我们的客户可以充分利用 AWS 全球网络资源构建属于自己的私有网络,服务业务部门走向全球。利用 AWS Direct Connect Gateway、Transit Gateway 等产品能实现多 region 跨账号复杂组网,架构也具有极高的可用性和灵活性,结合 SD-WAN 广域网产品可以充分利用互联网带宽,满足更多业务精细化管理的需求。

 

本篇作者

叶江荣

AWS 解决方案架构师。负责基于 AWS 的云计算方案架构的咨询和设计,同时致力于 AWS 云服务在国内的应用和推广。在加入 AWS 前,拥有多年外企售前经验,在传统网络架构的性能和安全方面有丰富的实践经验。

胡新华

AWS解决方案架构师,负责金融行业基于AWS的云计算架构咨询和设计。加入AWS之前就职于IBM,在数据中心IT基础架构相关的解决方案设计和交付方面,具有十多年经验。