亚马逊AWS官方博客

CI&T基于 Amazon Bedrock AgentCore 与 OpenClaw 的企业级智能运维最佳实践

摘要:CI&T联合AWS打造的智能运维解决方案,针对全球IoT业务面临的跨区域运维复杂性挑战,采用Multi-Agent协作架构设计。通过Supervisor Agent统筹调度五大专业Agent(FinOps、Platform Ops、Security Ops、Connectivity Ops、BizOps),结合Skills技能化封装和自动巡检体系,基于Amazon Bedrock AgentCore的Serverless部署,实现从”被动响应”到”主动发现”的智能化运维转型,显著提升运维效率并降低成本。


一、引言:全球化业务下的运维挑战

在智能家居与IoT领域,构建一个能够支撑全球业务的云原生平台已成为企业的核心竞争力。CI&T为一家全球领先的家居环境健康公司提供解决方案,其业务遍布全球,为了支撑海量设备的跨地域实时接入,我们构建了以 AWS IoT Core 为核心的全球化多区域部署架构,并深度集成了 AWS Lambda、存储及各类数据分析服务,形成了完整的数据处理链路。

[图1]

然而,随着系统规模的持续演进和业务边界的不断扩张,传统的运维模式开始面临严峻挑战:

  • 跨区域复杂性:运维数据、成本数据分散在不同区域的独立账号中,故障定位需要频繁切换上下文 。
  • 专家经验难以规模化:深度的日志分析和成本优化高度依赖经验丰富的工程师,面对全球规模的系统,人工操作不仅低效且容易出错 。
  • 巡检滞后:依赖手动查询 Dashboard,往往只能在问题发生后进行被动响应 。

二、解决方案:基于 OpenClaw 的 Multi-Agent 协作架构

我们构建了一套可编排的 AI Agent 系统,将复杂的运维能力转化为系统化的自动流 。该架构的核心在于专业分工与层级调度:

任务调度中心:Supervisor Agent

作为整个体系的“大脑”,Supervisor Agent 负责全局任务的拆分、子 Agent 的调度以及最终分析结果的汇总 。它确保了即便面对跨领域的复杂运维请求,AI也能逻辑清晰地给出完整回复。

领域专家团:专项子智能体

我们根据运维场景定义了5个领域的 Agent,每个 Agent 专注其特定领域的深度分析:

  • FinOps Agent (成本专家):负责成本趋势分析、服务/区域维度的异常检测,并提供针对性的优化建议 。
  • Platform Ops Agent (平台专家):深挖系统日志,进行异常检测与服务健康状态评估 。
  • Security Ops Agent (安全专家):专注于权限控制分析、凭证检查及各类安全风险识别 。
  • Connectivity Ops Agent (网络专家):监控网络延迟、流量异常及 SSL 证书有效性,确保全球连接的稳定性 。
  • BizOps Agent(业务指标专家):通过分析用户行为趋势和业务指标,让运维数据能够直接服务于业务决策 。

三、关键设计:运维能力“Skills 化”

在该架构中,我们使用了一个关键概念:Skills(技能)。Agent 不再直接硬编码调用底层云服务 API,而是通过调用封装好的标准化技能来实现目标 。

为什么需要 Skills 层?

  • 封装复杂逻辑:将复杂的 AWS CLI 或 API 调用封装为可复用的原子能力 。
  • 解耦底层依赖:降低了对具体工具或 API 的依赖,提供了统一的接口 。
  • 能力沉淀:所有的运维经验通过 Skill 转化为系统资产,而非仅存在于工程师的头脑中 。

[图2]

以成本分析 Skill 为例,它整合了AWS MCP服务中的 Cost Explorer 的数据查询、Pricing 的价格估算辅助分析 。Agent 只需发出“分析最近三个月的AWS成本”的指令,Skill 即可自动完成多维度的数据调取与初步处理,最终生成成本分析报告 。

[图3]

四、自动巡检体系:从“人找事”到“事找人”

通过 OpenClaw 驱动的自动巡检,我们将运维从“被动响应”转变为“主动发现”。

巡检流程

  • 定期触发:由 Supervisor 周期性发起巡检任务 。
  • 并行分析:各子 Agent 协同工作,分别执行成本分析、日志检查、安全审计和网络质量检查 。
  • 智能汇总:系统自动生成一份涵盖成本趋势、运行状态、安全风险及优化建议的统一报告 。

这种模式的价值不在于“能查数据”,而在于持续执行与智能分析,极大地解放了人力 。

五、基于Amazon Bedrock AgentCore企业级部署

当基于OpenClaw实现自动巡检并验证成功后,如何在企业中安全部署定期触发并实现真正的运维就是新的问题。基于Amazon Bedrock AgentCore的Serverless模式部署最符合这个场景。参照亚马逊云科技的OpenClaw生产级部署最佳实践,将固化的OpenClaw版本改造为AgentCore Runtime镜像并定时触发运行。

[图4]

基于Amazon Bedrock AgentCore部署的优势和价值

  • 安全隔离 – 同时兼顾按需伸缩,每个用户一个独立沙箱,Serverless 自动伸缩
  • 企业治理 – 快速实现预设的企业规则,防止数据与企业资产的越权访问
  • 成本节省,场景越碎片化、闲置时间越长,按需付费的优势越明显,针对定期执行任务价格优势更显著
  • 简化基础架构运维,采用Serverless架构,按需启动,实现底层基础架构运维自动化。
  • 可观测性 – 随时监控OpenClaw平台的状态

六、总结与实践心得

在重构 AWS 多区域 IoT 运维体系的过程中,我们沉淀了以下三点核心经验:

  • 标准化是基石:运维能力必须通过 Skills 层标准化,才能有效降低复杂度并提升多 Agent 协作的效率 。
  • 专业分工胜过通用模型:在复杂系统中,单一 Agent 难以覆盖全栈运维(成本、安全、网络等),专业化的多 Agent 架构能显著提升分析深度 。
  • 主动运维的闭环:AI Agent 的核心价值在于变“被动”为“主动”,通过自动分析持续发现潜在风险 。
  • 通过Amazon Bedrock AgentCore实现企业级部署,提供企业级的安全性和合规性,采用Serverless方式部署简化运维,节省费用。

通过引入 OpenClaw 与 Agentic AI 理念,我们成功将全球运维能力系统化、操作自动化、分析智能化,为全球业务的平稳运行筑起了坚实的智能防线 。

➡️ 下一步行动:

相关产品:

相关文章:

*前述特定亚马逊云科技生成式人工智能相关的服务目前在亚马逊云科技海外区域可用。亚马逊云科技中国区域相关云服务由西云数据和光环新网运营,具体信息以中国区域官网为准。

本篇作者

Jason Wang (王钧宏)

CI&T 亚太区工程负责人(APAC Head of Engineering),负责推动区域工程体系建设与技术创新,重点关注云原生架构、数据平台及 AI 在软件工程(AIDLC)与业务场景中的应用,包括智能开发、数据分析及业务流程自动化等方向。

徐达

亚马逊云科技资深解决方案架构师,致力于帮助初创企业在亚马逊云平台上实现业务部署。在呼叫中心及网络通信和云计算领域有多年的实践经验,拥有亚马逊云科技多项专业技术认证以及呼叫中心技术相关认证。


AWS 架构师中心:云端创新的引领者

探索 AWS 架构师中心,获取经实战验证的最佳实践与架构指南,助您高效构建安全、可靠的云上应用