Amazon Bedrock AgentCore 为部署可信人工智能代理增加了质量评估和策略控制

今天，我们隆重宣布推出 Amazon Bedrock AgentCore 中的多项新功能，以进一步消除阻碍人工智能代理进行生产的障碍。各行各业的组织已经在 AgentCore 上构建各种解决方案，AgentCore 是最先进的平台，可以安全地构建、部署和运行任何规模的功能强大的代理。在自预览版推出以来的短短 5 个月内，AgentCore SDK 的下载量已超过 200 万次。例如：

PGA TOUR 是体育领域的先驱和创新领导者，该公司已经建立一个多代理内容生成系统，为其数字平台撰写文章。构建于 AgentCore 基础上的全新解决方案通过将内容写作速度提高 1000%，同时将成本降低 95%，让 PGA TOUR 能够为该领域的每位运动员提供全面报道。
像 Workday 这样的独立软件供应商（ISV）正在 AgentCore 上开发未来的软件。AgentCore 代码解释器为 Workday 规划代理提供安全数据保护和用于财务数据探索的基本功能。用户可以通过自然语言查询分析财务和运营数据，使财务规划变得直观易懂、自主可控。此功能将花费在例行规划分析上的时间减少了 30%，每月可节省大约 100 个小时。
巴西分销商和零售商 Grupo Elfa 依靠 AgentCore 可观测性，实现了对其代理的完整审计可追溯性和实时指标监控，将被动流程转变为主动运营。借助这个统一平台，他们的销售团队每天可以处理成千上万次的报价，同时组织仍能全面了解代理决策，帮助对代理决策和互动实现 100% 的可追溯性，并将问题解决时间缩短 50%。

随着组织扩大代理部署规模，他们在实施正确的边界和质量检查以从容部署代理方面面临挑战。使代理变得强大的自主权也使他们难以从容地进行大规模部署，因为他们可能会不当访问敏感数据、作出未经授权的决策或采取意想不到的行动。开发团队必须在以下方面取得平衡：实现代理自主权的同时，确保他们在可接受的边界内运作，还必须达到将代理置于客户和员工面前所需的优异品质。

如今提供的各项新功能使这一过程无需猜测，可帮助您从容地构建和部署可信的人工智能代理：

AgentCore 中的策略（预览版）：使用具有细粒度权限的策略，在 AgentCore 网关工具调用运行之前拦截这些调用，从而为代理操作定义明确的界限。
AgentCore 评估（预览版）：根据实际行为，使用内置评估器（针对正确性和有用性等维度）和自定义评估器（针对业务特定要求），监控代理的质量。

我们还推出了扩展代理可执行之操作的功能：

AgentCore 内存中的情节性功能：一项新的长期策略，可帮助代理从经验中学习并在类似情况下调整解决方案，以提高在未来类似任务中的一致性和性能。
AgentCore 运行时中的双向流式传输：部署语音代理，其中的用户和代理都可以按照自然对话流程同时讲话。

AgentCore 中用于精确控制代理的策略
策略让您可以控制代理可以采取的行动并且在代理推理循环之外得到应用，同时将代理视为自主行为者，其决策需要在获得工具、系统或数据之前进行验证。该策略与 AgentCore 网关集成，可在工具调用发生时对其进行拦截，在保持操作速度的同时处理请求，因此工作流程始终保持快速且响应迅速的状态。

您可以使用自然语言创建策略，也可以直接使用 Cedar，这是一种提供细粒度权限的开源策略语言，可简化设置、理解和审计规则的流程，而无需编写自定义代码。这种方法使开发、安全与合规团队可以创建策略，他们无需专门的编码知识即可创建、理解和审计规则。

策略的运作独立于代理的构建方式或所用模型。您可以定义代理可以访问哪些工具和数据，无论它们是 API、AWS Lambda 函数、模型上下文协议（MCP）服务器还是第三方服务，以及它们可以在什么条件下执行哪些操作。

团队只需定义一次明确的策略，即可在整个组织中持续应用这些策略。策略就位后，开发人员可以自由地打造创新的代理体验，而在知道代理将遵守规定的边界与合规性要求的情况下，组织可以将其代理部署为自主执行操作。

在 AgentCore 中使用策略
首先，可以在 AgentCore 控制台的新策略部分中创建策略引擎，并将其与一个或多个 AgentCore 网关相关联。

策略引擎是在网关端点评估的策略集合。将网关与策略引擎建立关联后，可以选择是强制执行策略结果（即有效地允许或拒绝访问工具调用），还是仅发送日志。使用日志可帮助您在生产环境中启用策略之前对其进行测试和验证。

然后，您可以定义要应用的策略，对关联的 AgentCore 网关提供的工具的访问权限进行精细控制。

要创建策略，您可以从自然语言描述（应包含要使用的身份验证声明的信息）开始，也可以直接编辑 Cedar 代码。

基于自然语言的策略编写为您创建细粒度策略提供了一种更便捷的方式。您可以用简明易懂的英语描述规则，而不必编写正式的策略代码。系统会解释您的意图，生成候选策略，根据工具架构对这些策略进行验证，并使用自动推理来检查安全条件，识别过于宽松、过于严格或包含永远无法满足的条件的提示。

与通用大语言模型（LLM）翻译不同，此功能可以理解工具的结构，生成语法正确且语义上与您的意图一致的策略，同时标记无法强制执行的规则。该平台也可作为模型上下文协议（MCP）服务器，因此在正常开发工作流程中，您可以直接在首选的人工智能辅助编码环境中编写和验证策略。这种方法可以缩短上手时间，并帮助您编写高质量的授权规则，而无需 Cedar 相关专业知识。

以下示例策略使用的信息来自用于对 AgentCore 网关 (role) 进行身份验证的 JWT 令牌中的 OAuth 声明，以及传递给工具调用 (context.input) 的参数，旨在验证对退款处理工具的访问权限。只有具有 refund-agent 角色的经过身份验证的用户才能访问该工具，但金额 (context.input.amount) 低于 200 美元。

permit(
  principal is AgentCore::OAuthUser,
  action == AgentCore::Action::"RefundTool__process_refund",
  resource == AgentCore::Gateway::"<GATEWAY_ARN>"
)
when {
  principal.hasTag("role") &&
  principal.getTag("role") == "refund-agent" &&
  context.input.amount < 200
};

AgentCore Evaluations 可提供连续、实时的质量情报
AgentCore Evaluations 是一项完全托管式服务，可帮助您根据实际行为持续监控和分析代理性能。借助 AgentCore Evaluations，您可以使用内置评估器来评估常见的质量维度，例如正确性、有用性、工具选择准确性、安全性、目标成功率和上下文相关性。您还可以创建基于模型的自定义评分系统，并以所选提示和模型进行配置，从而进行为业务量身定制的评分，同时该服务对实时代理互动进行采样并持续对这些互动进行评分。

AgentCore Evaluations 的所有结果与 AgentCore 可观测性洞察一起直观显示在 Amazon CloudWatch 中，提供了一个统一监控的地方。您还可以对评估分数设置提醒和警报，以主动监控代理质量，并在指标超出可接受的阈值时作出响应。

您可以在测试阶段使用 AgentCore Evaluations，在部署之前，可以对照基准检查代理以阻止错误版本到达用户手中，也可以在生产阶段使用 AgentCore Evaluations 来持续改进代理。当质量指标降至规定的阈值以下时（例如客户服务代理满意度下降或礼貌分数在 8 小时内下降超过 10%），系统会立即触发警报，帮助更快地发现和解决质量问题。

使用 AgentCore Evaluations
您可以在 AgentCore 控制台的新评估部分中创建在线评估。您可以将 AgentCore 代理端点或外部代理使用的 CloudWatch 日志组用作数据来源。例如，我在这里使用的客户支持代理示例与我们在预览版中引入 AgentCore 时分享的示例相同。

然后，您可以选择要使用的评估器，包括可根据现有模板开始定义或从头开始构建的自定义评估器。

例如，对于客户支持代理，您可以选择以下指标：

正确性：评估代理回复中的信息在事实上是否准确
忠诚度：评估回复中的信息是否得到所提供的上下文/来源的支持
有用性：从用户的角度评估代理的回复有多有用和有价值
有害性：评估回复中是否包含有害内容
刻板印象：检测对个人或群组进行概括的内容

用于评估工具选择和工具参数准确性的评估器可帮助您了解代理是否为任务选择了正确的工具，并从用户查询中提取了正确的参数。

要完成评估的创建，您可以选择采样率和可选筛选器。要获得权限，您可以新建 AWS Identity and Access Management（IAM）服务角色，也可以传递现有角色。

评估结果将在评估后发布在 Amazon CloudWatch 的 AgentCore 可观测性控制面板中。您可以选择任何条形图部分来查看相应的追踪数据，并更深入地了解该特定评估背后的请求和回复。

由于结果在 CloudWatch 中，您可以使用其所有功能来创建警报和自动化等。

在 AgentCore Evaluations 中创建自定义评估器
自定义评估器允许您定义针对代理的独特要求量身定制的业务特定质量指标。要创建自定义评估器，您需要提供用作判断标准的模型，包括温度和最大输出令牌数等推理参数，以及带有判断说明的定制提示。您可以从其中一个内置评估器使用的提示开始，也可以输入新的提示。

然后，您需定义在输出中生成的量表。该量表可以是您定义的数值或自定义文本标签。最后，您可以配置评估由模型根据单一追踪数据、完整会话还是针对每次工具调用进行计算。

用于体验式学习的 AgentCore 内存情节性功能
AgentCore 内存是一项完全托管式服务，使人工智能代理能够记住过去的互动，而现在添加了一项新的长期记忆策略，使代理能够从过去的经验中吸取经验教训，并运用这些经验教训为未来的互动提供更有用的帮助。

假设通过代理预订行程：随着时间的推移，代理会从您的预订模式中吸取经验教训，例如，由于需参加客户会议，您经常需要在出差工作时将航班改签到较晚时段。在您开始下一次涉及客户会议的预订时，代理会根据这些习得的模式主动建议灵活的退货选项。就像经验丰富的助手了解您的特定旅行习惯一样，具有情节性记忆的代理现在可以识别并适配您的个人需求。

当您启用新的情节性功能时，AgentCore 内存会捕获结构化情节，其中记录了代理互动的上下文信息、推理过程、已采取行动及结果，而反射代理则分析这些情节以提取更广泛的洞察和模式。面对相似的任务时，代理可以检索这些知识以提高决策一致性并缩短处理时间。通过在代理上下文中仅包含代理完成任务所需的特定知识，而不是罗列所有可能的建议，减少了对自定义指令的需求。

AgentCore 运行时双向流式传输可实现更自然的对话
使用 AgentCore 运行时，您只需几行代码即可部署代理应用程序。为了简化部署感觉自然且响应迅速的对话体验，AgentCore 运行时现在支持双向流式传输。此功能使语音代理能够在用户说话时进行监听和调整，这样人们就可以在响应中打断代理并让代理立即根据新上下文进行调整，而无需等待代理完成当前输出。与用户必须等待完整响应的传统回合制互动相比，双向流式传输可以创建流畅的自然对话，其中，代理可根据用户所说的内容动态更改响应。

从头开始构建这些对话体验，需要完成大量的工程工作来处理复杂的同步通信流程。双向流式传输可管理代理在生成输出的同时处理输入所需的基础设施，优雅地处理中断以及在整个动态对话转移过程中保持上下文关联，从而简化这项工作。现在，您可以部署能够自然适应人类对话流畅性质的代理，在不丢失互动线索的情况下支持思想中断、上下文切换和澄清。

注意事项
Amazon Bedrock AgentCore（包括政策预览版）已在美国东部（俄亥俄州、弗吉尼亚州北部）、美国西部（俄勒冈州）、亚太地区（孟买、新加坡、悉尼、东京）和欧洲（爱尔兰法兰克福）的 AWS 区域推出。AgentCore Evaluations 的预览版已在美国东部（俄亥俄州、弗吉尼亚州北部）、美国西部（俄勒冈州）、亚太地区（悉尼）和欧洲地区（法兰克福）区域推出。有关区域可用性和未来路线图，请访问按区域列出的 AWS 功能。

借助 AgentCore，您可以按使用量付费，无需预先承诺。有关详细定价信息，请访问 Amazon Bedrock 定价页面。AgentCore 也是 AWS Free Tier 的一部分，可供新的 AWS 客户用于免费开始使用并探索关键 AWS 服务。

这些新功能适用于任何开源框架，例如 CrewAI、LangGraph、LlamaIndex 和 Strands Agents 以及任何基础模型。AgentCore 服务可以一起使用，也可以单独使用，您可以首先在自己喜欢的人工智能辅助开发环境中使用 AgentCore 开源 MCP 服务器。

要了解更多信息并快速入门，请访问《AgentCore Developer Guide》。

– Danilo

亚马逊AWS官方博客

Amazon Bedrock AgentCore 为部署可信人工智能代理增加了质量评估和策略控制

了解

资源

开发人员

帮助