Amazon Bedrock AgentCore 评估现已全面推出
Amazon Bedrock AgentCore 评估现已全面推出,可为人工智能代理提供自动质量评估。借助该评估功能,开发人员能够通过持续评估生产流量来监控代理质量,通过测试工作流程验证变更,并根据既定预期衡量代理性能。AgentCore 评估提供两种评估类型。在线评估通过对实时跟踪数据进行采样和评分来持续监控生产环境中的代理性能。按需评估使团队能够以编程方式测试代理,支持在 CI/CD 管道和交互式开发工作流程中进行回归测试。
团队可以使用 13 个内置评估器对代理的响应质量、安全性、任务完成情况和工具使用情况进行评估。开发人员还可以使用 Ground Truth 来衡量代理性能是否符合预期,包括响应验证的参考答案、会话级目标的行为断言,以及预期的工具执行序列。对于特定领域的要求,团队可以使用其所选提示和模型来配置自定义评估器,以进行基于 LLM 的评估,也可以通过 Lambda 托管的函数在 Python 或 JavaScript 中实施自定义逻辑以进行基于代码的评估。评估与 AgentCore 可观测性集成,可实现统一监控和实时提醒。
AgentCore 评估已在九个 AWS 区域推出:美国东部(弗吉尼亚州北部)、美国东部(俄亥俄州)、美国西部(俄勒冈州)、亚太地区(孟买)、亚太地区(新加坡)、亚太地区(悉尼)、亚太地区(东京)、欧洲地区(法兰克福)和欧洲地区(爱尔兰)。
通过文档了解有关 Amazon Bedrock AgentCore 评估的更多信息,并开始使用 AgentCore 入门工具包。