亚马逊AWS官方博客

评估企业级智能体:从原型验证到生产就绪

Agent 与传统软件有本质不同——非确定性、Prompt 即源代码、依赖会自己动——因此传统 QA 框架在它身上系统性失效,需要一套新的开发生命周期 ADLC。在那个六环节的飞轮里,“定义‘好’”排在动手构建之前,而 Evaluation 后续工程实践的重要基础:没有它,你不知道自己在哪里,也不知道改了之后有没有变好。上一篇结尾留下了三个问题:Agent Evaluation 究竟要评什么维度?有哪些方法?如何从零构建一套在企业规模下真正可用的评估体系? 本篇就来回答它们。

如何在亚马逊云科技上构建企业级智能体

前面两部分我们讨论了 Agent 的开发生命周期,以及评估为什么是一个全新的问题——它既不同于传统软件的单元测试(输入到输出不再是确定性映射),也不同于大模型 benchmark。本章的主线是六个递进的问题:评估框架长什么样 → 该看哪些指标 → 评估流程怎么跑 → 数据集和人怎么进来 → 怎么把它变成工程纪律 → 有什么工具支撑。

Amazon ECS 引入新的高分辨率指标,以实现服务快速自动扩缩

Amazon Elastic Container Service(Amazon ECS)服务自动扩缩可通过全面的扩展策略自动调整任务数量来满足工作负载需求,这些策略包括针对周期性流量的预测性扩展、针对计划活动的计划扩展,以及基于实时指标动态扩展的目标跟踪。

750B MoE 模型从自建 RoCE 集群迁移至 AWS EFA:Prefill-Decode 分离推理的通信架构验证

客户在自建机房使用基于 ConnectX 系列网卡的 RoCE 集群运行 GLM-5.1-FP8(750B MoE)模型推理服务,采用 Prefill-Decode (PD) 分离架构:2 台 Prefill 节点 + 2 台 Decode 节点,每台 8×H200 GPU。期望利用 AWS 弹性算力扩展本地 GPU 计算资源,同时获得更快的硬件迭代能力,从而降低硬件采购和折旧风险。AWS EFA 能否在这种极端复杂的通信负载下,达到 ConnectX 系列 + RoCE 方案的性能水平?我们基于客户的实际部署需求进行了完整的理论分析和实际验证

推出 Amazon Bedrock Managed Knowledge Base,助力企业人工智能应用程序更快速、更准确

今日,我们正式推出 Amazon Bedrock Managed Knowledge Base,这套拥有全新功能的产品可让开发人员在数分钟内,依托企业自己的专有数据搭建企业级生成式人工智能应用程序。构建代理式人工智能应用程序的组织需要安全、可靠且最新的企业级数据访问,以交付准确、快速且可信的结果。Managed Knowledge Base 简化构建、管理检索增强生成(RAG)管道的复杂流程,让开发人员可专注业务成果落地,无需投入精力管理基础设施。

发布 Amazon Bedrock AgentCore Web 搜索功能:为人工智能代理提供实时、准确的网络知识支撑

今日,我们正式宣布 Amazon Bedrock AgentCore Web 搜索功能全面可用。这是一款完全托管的工具,使代理能够在客户安全的 AWS 环境中零数据输出的情况下,根据当前引用的 Web 知识进行响应。