Amazon Bedrock AgentCore 評估現已正式推出
Amazon Bedrock AgentCore 評估現已正式推出,為 AI 代理程式提供自動化品質評估。評估可讓開發人員透過持續評估生產流量來監控代理程式品質、透過測試工作流程驗證變更,並根據既定期望衡量代理程式效能。AgentCore 評估提供兩種類型的評估。線上評估會透過對即時追蹤進行取樣與評分,持續監控正式環境中的代理程式效能。隨需評估讓團隊能以程式設計方式測試代理程式,支援 CI/CD 管道中的迴歸測試和互動式開發工作流程。
團隊可使用 13 個內建評估器,針對回應品質、安全性、任務完成情況和工具使用情況來評估代理程式。開發人員也可以使用 Ground Truth,根據預期來衡量代理程式效能,包括用於回應驗證的參考答案、針對會議層級目標的行為斷言,以及預期的工具執行順序。針對特定網域需求,團隊可使用自行選擇的提示詞和模型來設定用於 LLM 型評估的自訂評估器,或透過 Lambda 託管功能以 Python 或 JavaScript 實作自訂邏輯,進行程式碼型評估。Evaluations 與 AgentCore 可觀測性整合,以提供統一監控和即時提醒。
AgentCore 評估適用於九個 AWS 區域:美國東部 (維吉尼亞北部)、美國東部 (俄亥俄)、美國西部 (奧勒岡)、亞太地區 (孟買)、亞太地區 (新加坡)、亞太地區 (雪梨)、亞太地區 (東京)、歐洲 (法蘭克福)、歐洲 (愛爾蘭)。
請透過文件進一步了解 Amazon Bedrock AgentCore 評估,並開始使用 AgentCore 入門工具組