Amazon Bedrock AgentCore Evaluations の一般提供を開始
Amazon Bedrock AgentCore Evaluations の一般提供が開始され、AI エージェントの品質評価を自動化できるようになりました。Evaluations により、開発者は本番トラフィックの継続的な評価を通じてエージェントの品質をモニタリングし、ワークフローをテストして変更を検証し、定義された期待値に対するエージェントのパフォーマンスを測定できます。AgentCore Evaluations には 2 つの評価タイプがあります。オンライン評価では、ライブトレースをサンプリングしてスコアリングすることにより、本番環境におけるエージェントのパフォーマンスを継続的にモニタリングします。オンデマンド評価では、チームはプログラムでエージェントをテストでき、CI/CD パイプラインやインタラクティブな開発ワークフローでのリグレッションテストをサポートできます。
チームは、13 種類の組み込み評価ツールを使用して、回答の品質、安全性、タスク完了、ツールの使用状況についてエージェントを評価できます。開発者は Ground Truth を使用して、応答検証用の参照回答、セッションレベルの目標のための行動アサーション、想定されるツール実行シーケンスなど、期待値に照らしてエージェントのパフォーマンスを測定することもできます。ドメイン固有の要件については、チームで LLM ベースの評価用に選択したプロンプトとモデルを使用してカスタム評価ツールを構成したり、コードベースの評価用に Lambda がホストする関数を介して Python または JavaScript でカスタムロジックを実装したりできます。Evaluations を AgentCore Observability を統合することで、統合モニタリングとリアルタイムアラートを実現できます。
AgentCore Evaluations は、米国東部 (バージニア北部)、米国東部 (オハイオ)、米国西部 (オレゴン)、アジアパシフィック (ムンバイ)、アジアパシフィック (シンガポール)、アジアパシフィック (シドニー)、アジアパシフィック (東京)、欧州 (フランクフルト)、欧州 (アイルランド) の 9 つのAWS リージョンでご利用いただけます。
Amazon Bedrock AgentCore Evaluations の詳細については、ドキュメントをご覧ください。使用を開始するには、AgentCore スターターツールキットをご利用ください。