Amazon Machine Learning | 亚马逊AWS官方博客

AWS 一周综述：纽约峰会回顾、河内 Local Zone、Bedrock 中的 Grok 4.3、降价等（2026 年 6 月 22 日）

纽约峰会回顾、河内 Local Zone、Bedrock 中的 Grok 4.3、降价等

企业智能体之旅：为什么评估（Evaluation）是一切的起点

当企业把 AI Agent 从“演示惊艳的原型”推向“生产可信赖的系统”时，评估（Evaluation）就成了决定成败的关键一环——它既不同于传统软件的单元测试，也不同于单模型 benchmark。本文基于 Amazon 内部构建数千个生产级 Agent 的实战经验，系统拆解 AWS 的 Agent 评估方法论，并给出一套从原型验证到生产就绪的工程实践路径。

评估企业级智能体：从原型验证到生产就绪

Agent 与传统软件有本质不同——非确定性、Prompt 即源代码、依赖会自己动——因此传统 QA 框架在它身上系统性失效，需要一套新的开发生命周期 ADLC。在那个六环节的飞轮里，“定义‘好’”排在动手构建之前，而 Evaluation 后续工程实践的重要基础：没有它，你不知道自己在哪里，也不知道改了之后有没有变好。上一篇结尾留下了三个问题：Agent Evaluation 究竟要评什么维度？有哪些方法？如何从零构建一套在企业规模下真正可用的评估体系？本篇就来回答它们。

如何在亚马逊云科技上构建企业级智能体

前面两部分我们讨论了 Agent 的开发生命周期，以及评估为什么是一个全新的问题——它既不同于传统软件的单元测试（输入到输出不再是确定性映射），也不同于大模型 benchmark。本章的主线是六个递进的问题：评估框架长什么样 → 该看哪些指标 → 评估流程怎么跑 → 数据集和人怎么进来 → 怎么把它变成工程纪律 → 有什么工具支撑。

2026 年纽约 AWS Summit 的热门公告

今天在纽约市 AWS Summit 上，AWS 代理式人工智能副总裁 Swami Sivasubramanian 发表了当天的主题演讲。

推出 Amazon Bedrock Managed Knowledge Base，助力企业人工智能应用程序更快速、更准确

今日，我们正式推出 Amazon Bedrock Managed Knowledge Base，这套拥有全新功能的产品可让开发人员在数分钟内，依托企业自己的专有数据搭建企业级生成式人工智能应用程序。构建代理式人工智能应用程序的组织需要安全、可靠且最新的企业级数据访问，以交付准确、快速且可信的结果。Managed Knowledge Base 简化构建、管理检索增强生成（RAG）管道的复杂流程，让开发人员可专注业务成果落地，无需投入精力管理基础设施。

发布 Amazon Bedrock AgentCore Web 搜索功能：为人工智能代理提供实时、准确的网络知识支撑

今日，我们正式宣布 Amazon Bedrock AgentCore Web 搜索功能全面可用。这是一款完全托管的工具，使代理能够在客户安全的 AWS 环境中零数据输出的情况下，根据当前引用的 Web 知识进行响应。

AWS 一周综述：AWS FinOps 代理预览版、Bedrock 上的 Gemma 4、Kiro Pro Max 等（2026 年 6 月 15 日）

本周，纽约市将举办 AWS Summit。届时，构建者、客户和 AWS 技术团队将齐聚贾维茨会展中心，进行一整天的新品发布、现场演示和技术会议。我为本次峰会发布的部分新功能撰写了博客，很高兴看到这些功能在本周上线。可惜我无法亲临现场。我将参加为期四天的音乐节，一边努力弄清楚如何搭帐篷，一边在手机上关注发布会。如果您也和我一样，无法到场，6 月 17 日将开放主题演讲直播，由代理式人工智能副总裁 Swami Sivasubramanian 博士、安全服务与可观测性副总裁 Chet Kapoor 主讲，覆盖开发工具、AI 基础设施、安全领域的新功能。

Anthropic Claude Fable 5 on AWS：内置保护措施的 Mythos 级功能现已推出

2026 年 7 月 1 日更新——已恢复对 AWS 上的 Claude Fable 5 和 Claude M […]

AWS 一周综述：Amazon RDS for SQL Server 的 BYOM、适用于 Swift 的 AWS IoT 设备 SDK 等（2026 年 6 月 8 日）

Amazon RDS for SQL Server 的 BYOM、适用于 Swift 的 AWS IoT 设备 SDK 等

亚马逊AWS官方博客

Category: Amazon Machine Learning