亚马逊AWS官方博客

FreeWheel 云环境治理实践之运维体系设计

前言

随着各大云厂商竞争愈发激烈,云计算产业正在快速崛起。云计算正在影响整个信息产业,其可靠性、灵活性、按需计费的高性价比等优势已经让很多厂商把“上云”列入到了战略计划中。

相对传统运维,云计算为我们节省了很多硬件、网络、甚至一些基础服务的维护成本。与此同时也把运维模式从传统的静态化变成了动态化,如何管理多样化的动态资源、构建弹性化服务、实现异地切换与备份、管控内外部安全、优化成本等等挑战应运而生。

本文将分享 FreeWheel 基于亚马逊云科技云服务的运维生态体系设计思路:面对内部众多团队,如何在保持“底线”的同时,给用户提供灵活的可变空间、实现裸资源交付与管理。

不以规矩 不能成方圆

古人云,工欲善其事必先利其器。让我们先来定定规矩,制定内部标准“白皮书”。

命名标准与组织关系定义

传统运维中的 CMDB 是一个绕不开的话题。不过亚马逊云科技丰富的 API 已经帮我们封装好了各种接口,这些基础信息都可以通过 API 实时查询。我们要做的是把各个服务模块通过多种维度描述出来。

我们将服务树服务作为公司内部统一入口,用来描述和维护所有资源的组织关系,虽然服务本身很轻量化,但却是整个运维生态系统的基石。

服务树需要怎么设计?这个并没有标准答案,需要综合公司实际情况反复地推敲与验证才能定制出合理的方案。

虽然是开放性设计,但还是需要满足一些基本要求:

  • 最小服务单元唯一性

注册在服务树里面的节点必须是唯一的,这个就像传统的硬件资源管理,大到一个机柜,小到一根内存,每个硬件都是唯一并且真实存在的。

  • 灵活并尽可能小巧

这里需要考虑维度问题,服务树既是给自动化代码读的,也是给人看的。不同角色需要不同的维度,所以这里一定要按需制定好标准规范,以后公司内部的沟通与开发、部署、维护等都会围绕这个体系运转。

  • 与业务关联

先顺应公司当前的产品线思路去设计。梳理清楚当前的业务结构,了解未来的发展计划和趋势,需要考虑的因素包括产品线定位、人员安排等等。

然后要考虑当前底层基础服务情况。比如我们的大部分业务都运行在亚马逊云科技上,需要利用云原生服务的特性来支撑设计需求。

最后要兼顾底层载体的基本特性,其初期交付、中后期的部署与配置管理,以及后期的下线等都需要通过服务树来管理。

在此抛砖引玉一下,我们的设计是以 Project(项目) 、 Application(应用) 、Service(服务,即最小服务单元)为主的三层结构(以下简称 P-A-S 模型),小巧且可以灵活覆盖业务。

根据这三层结构,我们定义出了不同的维度便于生态管理,即:

  • P 节点:项目层,包括下面所有 P-A 及 P-A-S 资源
  • P-A 节点:应用层,包括 P-A 下面的所有资源
  • P-A-S 节点:单服务层,仅仅包括对应的单一服务单元
  • P-*-S 节点:通配服务层,该项目下所有应用的特定服务单元,适用于内部多租户的越界管理

下图简单介绍了服务树的层级与云资源的对应关系:

同时面对多租户及中台性质的这些服务,我们的服务树也会基于应用层来显性地指明对应关系,如下图所示:

  • 中台性质的服务,S 层所属统一项目,并跨 P 或 A 层节点提供业务支持。
  • 多租户性质的服务,A 层可根据需求,映射到不同的 P 或者 A 节点,这可以灵活地实现费用分析以及人员的管理等。

基于服务树,我们把 亚马逊云科技 的资源均对号入座打上 P-A-S 的 TAG,看下服务树帮我们解决了哪些问题:

  • 命名标准:
    • 通过命名的标准化,很好地统一了内部沟通语言,包括工作和机器语言。
    • P 和 A 层资源信息(命名、节点位置、人员信息等)固化在服务树里,剩下的 S 层相对灵活,通过流程确保服务树“源”的权威性。
    • 对于云上的资源,把服务树节点信息与 TAG 绑定,对支持自定义化的 ARN 资源,也会基于服务树节点固化 ARN。
  • 组织关系:
    • 资源相关的信息,都可以通过不同节点位置或者用定义好的不同维度来查询。
  • 费用分析:
    • 将 P-A-S 设定为 Billing TAG,这样我们可以从 cost explorer 或者 billing raw data 里方便地统计出各个维度的费用明细。
    • 针对中台或者多租户平台的费用追踪,我们提出了一个 budget entity 的概念,即通过 P-A-S 不同维度的组合,可以预定义出不同范畴的“预算组合集”。
    • 通过费用明细和监控数据的关联分析,可以给容量评估和优化提供很好的参考数据。
  • 访问控制:
    • 针对于业务层面,基础的 IAM 和 Security Group 均基于服务树节点进行通配或精准授权。
    • 针对于人员和工具层面,比如报警组、权限申请、pipeline 等都可基于服务树进行授权和隔离。
  • 自动化运维:
    • 服务树的设计理念为实现统一的、标准的自动化运维平台打下了坚实的基础, 例如上述的命名标准,访问控制都是自动化运维平台里不可或缺的部分。

云原生服务的标准定义

完成了组织结构的规范和标准,接下来就要标准化原生服务的使用与管理方案。

为什么要规范云原生服务的使用呢?

公有云服务往往需要兼顾多样化的用户场景,所以服务设计得非常灵活,内部多租户模式给管理带来了很多痛点:

  • 不同团队使用相同服务、解决不同问题,或使用不同服务、解决相同问题,过多的差异化难以维护。
  • 往往一个参数的差异,就会导致误把资源发布到公网或者内部权限越界,存在很多安全隐患。
  • 公有服务迭代快,学习成本高。

我们本着“在同构中求异构,不在异构中求同构”的原则,尽可能最大化复用资源。像部署发布这种琐碎重复的事情交给底层基础服务去完成就好了,所以我们在支撑众多业务团队时候需要尽可能做到:

事做一遍、坑踩一次、快速迭代。

在云上,对于最底层裸资源我们大概划分成这几类:

除亚马逊云科技开箱即用的原生服务,其他服务均需要额外的工具来构建其生态,因篇幅有限,今天我们先不做深入讨论。

在亚马逊云科技各种白皮书和最佳实践文档的基础上,我们根据公司实际情况,针对大部分常用服务制定了公司内部的“最佳实践”,主要包括:

  • 原生服务的应用场景的制定,固定需求的统一解决方案,原生服务选型等标准;
  • 扩展性、安全性、可管理性、费用成本评估等标准;
  • 权限、属性等配置约束;
  • Tag、ARN 等命名约束;

当然,标准不意味着技术锁定,对于“老”技术需要不断更新迭代,对于“新”技术,在积极拥抱的同时更需要理智地评估,而不是一味赶“时髦”。

基础设施的标准定义

无标准不成自动化,到此,我们有了足够详细的标准化参考,接下来我们就要思考如何确保各种标准可以准确地应用到生产之中。

在底层基础实施技术栈的选型上,我们主要考量以下几个方面:

  • 可管理云上资源
  • 可支持多用户或团队协同工作
  • 可扩展
  • 可维护

亚马逊云科技作为一个很成熟的公有云,很多商业化或开源的厂商都在其之上提供了完整解决方案,相关的技术选型是个仁者见仁智者见智的问题,找到适合的就可以。

我们最终选择了 Terraform 的开源方案,在此简单介绍下 Terraform(以下简称 TF)的优势:

  • Infrastructure as Code 模式;
  • 执行计划提示,即应用新代码前可显示“dry run”结果,对幂等性管理比较友好;
  • 一键执行,TF 会根据代码的修改自动编排对云服务 API 的调用;
  • 较丰富的组件支持,除亚马逊云科技外还支持很多流行工具,同时产品迭代也跟的上亚马逊云科技的进度(亚马逊云科技的更新速度真的很快)。

TF 作为一个 Infrastructure as Code 的框架,虽然有诸多优势,但是如何将它用好仍然是我们需要去解决的问题,尤其是在多团队合作参与云环境治理的的情况下, 如何保证整套治理体系的可维护性、安全性、幂等性、唯一性等等。

鉴于此,我们打造了一个支持 TF 的自动化运维平台作为云环境治理的统一入口,通过平台介入来实现下图中左侧往右侧的转变, 并解决上述几个问题:

可维护性:保障代码风格和结构一致性,保证代码库始终处于可维护的健康状态

  • 针对亚马逊云科技的各项原生服务,基于上文确定的“内部最佳实践”,我们将对应的实践固化成 TF 模块,并加入显性的版本控制,便于灵活管理模块,使其与应用代码解耦,实现私有化模块注册功能。
  • 私有化模块库在公司内部以开源项目的模式管理,集大家的力量和经验来扩大和提升“最佳实践”的范围。
  • 降低用户对 TF 的学习成本,通过可视化前端来生成和维护代码,用户只需在界面选择自己需要的私有化模块版本,根据引导输入简单的变量,运维平台会负责自动生成 TF 代码,并进入 pull request(以下简称 PR)阶段,从而保证代码风格和结构的一致性。

安全性:保障修改后的代码平稳应用到线上

  • 准确性,利用自动化运维平台结合 TF 的 Dry run 功能保证用户提交代码的准确性,包括语法和预定义的语义检查,以及提交资源修改前的二次确认。
  • 运维平台支持暂存当前工作目录状态,便于执行 TF dry run 和不合法修改再编辑等功能。
  • 运维平台根据我们的最佳实践定义了一些语义检查规则,补足了 TF dry run 无法实现的一些检查点。比如,IAM policy 的内容会结合预定的黑名单,初筛一些权限越界的修改。
  • TF dry run 结果会提示用户此次资源变更的具体信息和细节, 用户确认此次提交的影响是否符合预期后,变更才会正式进入 PR 阶段。
  • 合法性,用户提交的任何关于资源变更的修改,上线之前都会经过审核人员(SRE 团队)的评估。
  • 可审计性,任何关于云资源的变更都会被详细记录下来,便于变更追溯和第三方审计。
  • 隔离性,基于服务树的设计,可以灵活地把任意节点和下面的子节点定义为一个租户,每个租户都为其创建单独的 pipeline 进行权限和网络的隔离。通过权限边界的隔离,一是便于组织租户内的资源,二是可以止损一些泛事件的影响,比如极端 bug、恶性行为等。

幂等性:保障代码可一次或多次按需应用变更

  • 维护好 TF 的状态信息,即 TF 的 state 信息。TF 每次运行都会用对比云资源实际状态和 state 里记录的状态,若发现不一致的情况,TF 会以自己的 state 信息为基准去纠正实际状态。所以 state 信息需要独立维护,并且做好备份。目前我们采取的方案是 state 信息独立存储在Amazon S3 里,并且开启 object version 来备份每次更新,同时在异地备份,避免一些灾难性的不可逆事故。
  • 处理好资源依赖。服务的部署通常比较复杂,有先后顺序、输入输出等等依赖关系,所以小到模块内部,大到整套 TF 代码,都需要确保这些关系是正确的,这样代码就可以到处部署了。
  • 通过 TF 模块化的结构来限制一些变更。先解释下哪些属于重要参数,因为一些 云原生设计的特性,一些服务一旦创建出来,有些参数就无法修改了,或者修改后不会影响现有资源,只有下次创建新资源才会生效。TF 不但会继承这些特性,在有些场景还会强制植入些新的逻辑。因为云的特性,这种案例有很多,但是在大部分场景下我们可能不需要这样的“硬操作”,所以之前提到的“内部最佳实践”都会对参数和使用场景等等进行评估和设计。

唯一性:保障代码做为“源”,而不是环境影响代码

  • 最小化授权,无论人员还是服务,只授权需要的的权限。原理很简单,但是实现起来还是有些难度,需要沉淀出各种场景的权限模板供大家参考与使用,主要原因如下:
    • IAM policy 的学习成本高,涉及服务种类多,每个服务下面又有很多 action,还需要配置很多条件才可实现最小化授权,最终的结果是一个较复杂的组合。
    • 用户往往可以描述出清晰的使用场景,但是不清楚所依赖的云服务和具体 action。
  • 若资源被 TF 维护,那修改的途径也要通过 TF,否则就会产生歧义,到底该以环境状态还是代码状态为准。
  • 尽量使用云原生服务来管理动态资源,支持动态扩展的原生服务已经为我们造好轮子了,除非功能不能满足我们需求。另外 TF 管理资源其实是非动态的,它需要记录在管的每个资源的生命周期状态,并且基于这些对应的状态才能做出决策。举个简单的例子,我们需要根据业务不同的时间段,来扩展集群里 Amazon EC2 的数量,如果直接使用 TF 管理每一个Amazon EC2,那我们就只能频繁地调整代码了。换个角度,如果利用 TF 直接管理 Auto Scaling group(以下简称 ASG),所有 Amazon EC2 托管于 ASG,非 TF 直接管理,这样的话我们只需要维护 ASG 的 schedule policy 和 Amazon EC2 的 launch template 即可优雅地固化 TF 代码。
  • 监控方面,通过 TF 的 plan 功能进行异步检查,判断当前 TF 代码是否与线上环境一致。一旦检查到非一致的资源,主动发送报告给对应的负责人,由负责人修复。

结语

标准定义是一个团队持续思考与沉淀的过程,也是不断迭代与试错的过程,更是获得宝贵经验财富的过程。但是有了标准,如果没有强有力的执行,那么标准就失去了应有的意义。在之后的文章中,我们将重点介绍 FreeWheel 在标准化过程中的实践,以及运维平台如何发挥它的作用。

本篇作者

彭潇

FreeWheel Lead SRE,CCoE 成员,负责云治理架构体系搭建,云管工具建设与研发,包括云成本管理,业务持续性管理,云工具自动化,云安全管理,云原生转型等。他之前在著名游戏公司 Kabam 担任 TechOps 经理。

肖红亮

AWS 解决方案架构师,在 AWS 主要服务数字广告和营销行业的客户,目前主要专注在大数据和机器学习领域的技术研究和实践。在加入 AWS 之前,曾就职于甲骨文和微软等科技公司,拥有 6 年云服务技术架构经验。

陈赫

亚马逊云科技高级客户解决方案经理,主要负责广告与媒体行业大客户数字化转型,云迁移与云原生服务解决方案与项目管理,在云运维领域有多年经验,曾在 IBM、HP 等公司任职。