70%
系统故障数量同比减少约 70%
80%
故障恢复时间同比降低约 80%
99.99%
系统可用率提高到 99.99% 以上
50%
客诉率同比下降 50% 以上
概述
PayerMax 是一家植根新兴市场,布局全球业务的金融科技公司,致力于提供专业的全球化在线支付解决方案,为商户提供更安全、便捷的一站式支付体验。目前,在东南亚、中东、拉美、中亚等新兴市场地区,PayerMax 均已覆盖当地主流支付方式。 PayerMax 通过优化核心系统,提升支付服务的稳定性和可靠性,以更好支持业务规模和交易量的持续增长,从而提升全球商户的支付体验。PayerMax 基于亚马逊云科技实施混沌工程来识别支付系统中的风险,并在故障应对后再验证故障是否得到解决。在该项目中,PayerMax 采用的亚马逊云科技主要资源和服务包括:亚马逊云科技韧性系统分析框架 (Resilience Analysis Framework)、AWS Fault Injection Service (AWS FIS)、Amazon CloudWatch、Amazon EventBridge、Amazon Simple Notification Service (Amazon SNS) 等。

机会 | 为应对金融支付交易量和交易规模的急剧扩张,PayerMax 利用混沌工程提升系统稳定性
作为深耕东南亚、中东、拉美、中亚等海外区域,业务涵盖数字娱乐、游戏、电子商务、互联网金融、在线教育等领域的全球收单、付款、收款等服务的全球跨境支付解决方案提供商,PayerMax 为出海企业在这些新兴市场提供有竞争力的一站式金融支付解决方案。
随着业务的增长和交易规模的扩大,跨境支付的收单、收款类业务流程长,服务调用中既涉及订单流程,又覆盖资金流程,链路复杂,PayerMax 对业务的稳定性诉求持续攀升。同时,为了覆盖海外各区域的支付方式,为客户提供顺畅的本地支付体验,PayerMax 需要对其产品进行快速迭代和更新,平均每周要发布两个版本。因此,PayerMax 要在交易量和交易规模持续攀升、自身业务系统快速迭代和高频发布版本的情况下,保障跨境支付系统的稳定性至关重要。PayerMax 着力从以下 3 个方面提升稳定性:
- 持续观察系统行为并发现系统弱点,及时加固系统,防患于未然,提高系统的平均无故障时间;
- 提高支付业务的故障发现能力以及从故障中快速恢复的能力,在故障发生时快速恢复支付服务;
- 培养工程师面向失败进行系统设计的技术文化,全面建立应对各种意外的能力,提高复杂环境中的支付成功率。
PayerMax 与亚马逊云科技的合作自 2018 年开始,在双方合作的 6 年中,历经了多套环境隔离建设、安全性合作、数据库和中间件等多集群建设、冷热切库建设,到多站点部署等,目前 PayerMax 工作负载主要部署在亚马逊云科技上。鉴于上述稳定性诉求, PayerMax 与亚马逊云科技深度沟通后,决定基于亚马逊云科技良好架构 (Amazon Well-Architected) 提升可靠性,通过实施混沌工程实现上述稳定性目标。

通过实施混沌工程,运用亚马逊云科技服务于全球数百万客户中沉淀的稳定性相关优秀实践,将亚马逊云科技的 ‘韧性系统分析框架’ 方法论和专家资源引入到 PayerMax,帮助我们提前识别系统中潜在的脆弱点,降低系统稳定性缺陷可能造成的损失,同时有效锻炼团队识别风险、定位故障和快速恢复系统服务的能力。我们期待与亚马逊云科技开展更多合作,共同为全球金融行业支付网络的稳定性和可靠性保驾护航!”
傅扬标
PayerMax CTO
解决方案 | 从韧性系统分析框架到故障注入工具,PayerMax 基于亚马逊云科技落地混沌工程对 16 个核心子系统识别风险和验证系统潜在风险
混沌工程是通过对系统注入未知故障,提前发现系统中潜在的脆弱点,检验系统健壮性,降低系统稳定性缺陷可能造成的损失的工程。混沌工程本身不解决稳定性问题,而是发现系统的稳定性弱点或者漏洞在哪里,它可以从不同的层面,包括整个可用区层面、数据库层面、应用层面等不同的环节,进行异常测试,最终要回答的是:无论是一台服务器、所在的一个可用区、数据库或某应用发生故障,会不会导致业务全量宕机?如果答案是 “是”,那就说明存在稳定性风险。
混沌工程虽然不是业务系统,但关系着业务系统的健壮性,在实施过程中会面临多种挑战。首先,PayerMax 从 C-level 层面推动全员统一思想,积极拥抱全新技术理念,并为项目的实施提供支持;其次,风险评估要求项目执行人员能够了解业务系统、梳理风险点、故障注入点,并熟悉相关工具,否则若风险点、注入点、预期行为和结果定义不清,容易导致混沌工程的效果大打折扣;再次,PayerMax 希望尽可能真实地模拟云基础设施发生大规模故障时,如亚马逊云科技发生可用区级故障,能够检验当前系统能否仍然正常运行;最后,如何选择合适的工具并进行自动化,是让项目能够由一次性项目转变为例行化工程的关键。
入款、出款主链路是支付系统交易的必经路径,其成功率是影响用户留存率的重要参数,保障主链路服务的稳定性、可用性是 PayerMax 的关键目标。PayerMax 本次混沌工程项目面向入款、出款两大路径,100% 覆盖了主链路应用,涉及了 PayerMax 16 个核心子系统,涵盖网络、数据库、容器平台、微服务系统、亚马逊云科技可用区级等潜在故障场景。
首先,利用亚马逊云科技的各类资源来解决 PayerMax 稳定性工程建设。此前,PayerMax 虽然具备多年的系统稳定性基础,但在混沌工程领域尚未开展系统化实践。而亚马逊云科技提供的良好架构中的可靠性支柱,基于 “亚马逊云科技韧性系统分析框架” 从系统分层和系统失效类型的视角,结合行业故障类型统计等,PayerMax 得以全面识别和评估系统风险。
其次,基于风险分析结果,亚马逊云科技和 PayerMax 一起基于混沌工程的落地实践,进行系统稳态分析、混沌工程实验假设(注入故障后,假设系统的表现)、实验工具选择和部署、实验结果总结分析,并基于实验结果反馈对系统进行优化和改进。
然后,在混沌工程实验过程中,PayerMax 携手亚马逊云科技验证系统的健壮性和容错能力。通过采用 AWS FIS 进行亚马逊云科技基础设施故障注入,包括亚马逊云科技可用区级故障的模拟,使用业界开源工具进行容器平台、微服务的故障注入。双方还一起验证了监控告警平台的有效性、定位和解决故障的能力,共同解决实验过程中暴露的问题,并推动 PayerMax 支付系统的自动化建设。
AWS FIS 是亚马逊云科技韧性监测中心 (Amazon Resilience Hub) 中的一部分,用于运行故障注入实验,来改进应用程序的性能、可观测性和韧性。AWS FIS 简化了一系列亚马逊云科技服务来设置和运行受控故障注入实验的过程,为 PayerMax 提供了在生产中进行实验如在满足特定条件时自动回滚或停止实验所需的控制和防护机制。
此外,在架构稳定性方面,PayerMax 还基于亚马逊云科技和自研技术解决方案,来验证 PayerMax 业务系统的单点到集群、多站点、多可用区部署能否让业务处在较高的可用性、稳定性水平。
从 2024 年 3 月份开始,PayerMax 立项启动混沌工程;期间从提出构想、引入专家资源、学习相关方法论和案例、制定实施方案、评估业务风险点、选择合适工具、选择故障注入点,到全栈测试、16 个核心子系统逐一单独深入测试,最后针对期间暴露的问题和风险点进行总结,并全面制定系统提升改造计划,历经约 6 个月完成 PayerMax 混沌工程的落地。
业务成果 | 系统故障数量同比减少约 70%,同时故障恢复时间同比降低约 80%,客户投诉率下降 50% 以上
通过混沌工程项目的落地,实现了:1)消除故障于未然,PayerMax 识别出 34 类潜在风险点,验证并解决了大部分问题,系统故障数量同比减少约 70%;2)系统识别故障、定位故障和解决故障的能力显著加强,相比混沌工程实施前,PayerMax 支付系统的平均无故障时间提升,故障恢复时间比之前快了约 80%;3)系统可用率提高到 99.99% 以上,帮助 PayerMax 有效应对各类风险,确保商户支付服务的持续稳定。
混沌工程覆盖了 PayerMax 16 个核心子系统,覆盖了网络、数据库、容器平台、微服务系统 、亚马逊云科技可用区级等潜在故障场景。混沌工程的实施,帮助 PayerMax 核心业务系统进一步提升市场竞争力,有效支撑了后续卫星站的建设。最终,PayerMax 稳定性方面全年无重大故障,客诉率同比下降 50% 以上,赢得更多客户信任。
此外,通过该项目的实施为 PayerMax 引入混沌工程概念,亚马逊云科技对 PayerMax 技术团队进行了韧性架构建设培训,在全公司范围内认识并加强对混沌工程的接受程度。更重要的是,提高了技术人员面向失败的设计意识和更强的风险预防意识,让技术人员不畏惧失败,先行从悲观视角识别各种风险和隐患,再谨慎进行风险评估,乐观探索风险暴露后的解决方案,并验证风险是否得到有效应对。
接下来,PayerMax 将和亚马逊云科技继续进行混沌工程建设,完善风险点识别机制,增加覆盖场景,并完善混沌工程演练的随机性和自动化程度。PayerMax 还将基于亚马逊云科技探索 “全球一张网”,通过统一的云基础设施架构支持全球更多区域的业务拓展,实现全球多站点互备,并确保合规性与高效性并重,进一步提升全球商户的支付体验。此外,生成式 AI 也是 PayerMax 的重点关注,后续将携手亚马逊云科技一起合作,探索生成式 AI 在金融科技领域的创新应用。
关于 PayerMax
PayerMax 是一家植根新兴市场,布局全球业务的金融科技公司,致力于提供专业的全球跨境支付解决方案,服务涵盖全球收单、付款、收款等领域,旨在为全球客户提供更安全、便捷的一站式支付体验。
使用的亚马逊云科技服务
*前述特定亚马逊云科技生成式人工智能相关的服务仅在亚马逊云科技海外区域可用,亚马逊云科技中国仅为帮助您发展海外业务和/或了解行业前沿技术选择推荐该服务。