亚马逊AWS官方博客
使用 Kiro 和 MCP 自动化大规模升级 RDS MySQL 8.0 至 RDS MySQL 8.4
本文介绍 RDS MySQL 升级助手,这是一款开源工具,可批量执行 Amazon RDS MySQL 8.0 到 RDS MySQL 8.4 主版本升级。它解决了大规模主版本升级中最棘手的两大难题:系统地修复数百个实例的预检查问题,以及验证升级后的应用程序行为。该工具提供了一个包含 19 项 SQL 预检查的引擎,并附带修复方案、自动化参数组和选项组迁移、蓝绿部署和原地升级编排(包含切换前安全检查)以及应用程序验证框架——所有作业都可以通过 shell 脚本或 Kiro IDE/CLI 的自然语言进行访问。
基于 Amazon ECS Fargate 自建 Keycloak 作为 AWS IAM Identity Center 外部 IdP,为 Kiro 提供企业级 SSO 登录
Kiro 是一款面向开发者的 AI 辅助编程工具,支持 Google、GitHub、AWS Builder ID、AWS IAM Identity Center(以下简称 IdC)多种登录方式。本文聚焦 IdC 这条路径——适合需要把 Kiro 纳入企业身份治理、按组织统一下发权限的团队。
AWS DevOps Agent 接入 AWS 中国区(一):Partition 隔离与 MCP 单账号桥接
AWS DevOps Agent 是 AWS 全球区(aws partition)的服务,原生不支持调用 AWS 中国区(aws-cn partition)的资源。如果希望该 Agent 帮助管理 AWS 中国区账号,需要自建一座桥。本文(系列第一篇)说明为什么要建、整体架构与关键设计、以及单账号场景的端到端部署流程。多账号扩展、跨云与运维的内容请参见本系列第二篇。
在 Amazon EC2 GPU 实例上部署 NVIDIA NemoClaw — 以 Amazon Bedrock 作为推理后端的生产级参考架构
本文将通过一次完整的部署实践,演示如何在 Amazon EC2 GPU 实例上跑通 NVIDIA NemoClaw,并在此基础上引入 NVIDIA 官方刚开源的 LLM Router Blueprint 做请求级别的智能路由
Zenjoy 基于 Amazon Bedrock 和 EKS 构建 AIOps Agent:打通 Prometheus、ES 与夜莺的智能化告警实战
随着微服务架构的规模化演进,传统基于静态阈值的监控告警体系面临误报率高、漏报频发、人工排查效率低等瓶颈。本文介绍了一种将确定性数学算法与大语言模型深度解耦的 AIOps Agent 方案——由 Z-Score、IQR、线性回归等统计算法完成全量监控数据的确定性分析与过滤,再由 Amazon Bedrock 上的LLM模型对精简后的结论进行智能总结与报告生成,最终通过夜莺平台实现告警的统一管理与多渠道通知。该方案运行在 Amazon EKS 之上,使用 AWS 开源的 Strands Agents 框架构建 Agent,实现了告警信噪比的大幅提升和运维效率的显著改善。
基于 Amazon WorkSpaces Applications 快速搭建企业级应用培训环境
本文介绍如何使用 Amazon WorkSpaces Applications快速搭建企业级应用培训环境。方案涵盖从网络基础设施一键部署、自定义镜像制作、Fleet 弹性扩缩容到批量生成学员访问链接的完整流程,将传统手动配置需要一整天的工作缩短至 1-2 小时。文中还提供了一键启动 CloudFormation 堆栈、成本优化策略和多场景最佳实践,适用于临时大规模培训、周期性技能培训和多应用并行培训等企业场景。
在 Amazon Bedrock 上为 Claude 应用设计稳健的 Prompt Cache 策略
本文介绍如何在 Amazon Bedrock 上为 Claude 应用设计 Prompt Cache。
AWS DevOps Agent × MCP Server:打通混合云网络排障的最后一公里
混合云 BGP 故障的另一半证据往往在 on-premises 设备上。本文在真实 Direct Connect 环境上,通过 MCP Server 把 Cisco 路由器的只读命令暴露给 AWS DevOps Agent,用 Private Connection 把调用流量留在 AWS 骨干网,再用 EventBridge Scheduler + Lambda 把调查结论自动回推飞书群——完成”告警 → 自主调查 → 结论回到 Chat”的混合云 ChatOps 闭环。
AWS DevOps Agent 实战:云网络故障自主调查与修复建议
混合云网络故障根因常散落在 CloudWatch、CloudTrail、VPC、TGW、DX、VIF 等多个控制面。本文在真实 Direct Connect 环境上用 6 个故障场景验证 AWS DevOps Agent:从告警 payload 自主解析上下文、关联多源证据、定位根因,并输出可接入 SRE 变更流程的 5 阶段 Mitigation Plan,把工程师从”跨控制台收集证据”解放出来。
Habby 游戏借助 AWS DevOps Agent 实现智能运维最佳实践
Habby(海彼游戏)是一家全球知名的休闲游戏发行商,代表作包括《弓箭传说》、《弹壳特攻队》、《GO!卡皮巴拉》等。公司拥有全球数亿玩家,运行在AWS上的后端基础设施按游戏多账户管理。
Habby 作为 AWS DevOps Agent 的早期采用者,通过深度集成Grafana、GitHub、飞书等工具,构建了一套适合游戏行业的智能运维方案,从而更好的应对流量波动、延迟敏感、版本更新频繁的运维要求。本文将介绍 Habby 游戏使用DevOps Agent的最佳实践,为行业客户提供有价值的落地经验。