Amazon Web Services ブログ

Amazon Bedrock AgentCore には、信頼できる AI エージェントをデプロイするための品質評価とポリシーコントロールが追加されました

2025 年 12 月 2 日、AI エージェントを本番稼働環境から引き離す障壁をさらに取り除くための Amazon Bedrock AgentCore の新機能を発表しました。あらゆる業界の組織が、あらゆる規模で高性能なエージェントを安全に構築、導入、運用するための最先端のプラットフォームである AgentCore をすでに利用しています。プレビューからわずか 5 か月で、AgentCore SDK は 200 万回以上ダウンロードされました。例:

  • スポーツのパイオニアでありイノベーションリーダーでもある PGA TOUR は、デジタルプラットフォーム向けの記事を作成するためのマルチエージェントコンテンツ生成システムを構築しました。AgentCore 上に構築されたこの新しいソリューションにより、PGA TOUR はコンテンツの書き込み速度を 1,000 パーセント向上させながらコストを 95% 削減することで、フィールドのすべてのプレーヤーに包括的なサービスを提供できます。
  • Workday のような独立系ソフトウェアベンダー (ISV) は、AgentCore で未来のソフトウェアを構築しています。AgentCore Code Interpreter は、Workday Planning Agent に安全なデータ保護と財務データ探索に不可欠な機能を提供します。ユーザーは自然言語クエリを使用して財務データや業務データを分析できるため、財務計画を直感的かつ自発的に行うことができます。この機能により、日常的な計画分析に費やす時間が 30% 短縮され、1 か月あたり約 100 時間を節約できます。
  • ブラジルのディストリビューター兼小売業者である Grupo Elfa は、エージェントの完全な監査トレーサビリティとリアルタイムメトリクスのために AgentCore Observability を活用し、事後対応型のプロセスをプロアクティブな業務に変えています。この統合プラットフォームを使用することで、営業チームはエージェントの決定を完全に可視化しながら、毎日何千件もの価格見積もりを処理できます。これにより、エージェントの意思決定とやり取りの 100% のトレーサビリティが実現し、問題解決にかかる時間が 50% 短縮されます。

組織がエージェントのデプロイをスケールするにつれ、自信を持ってエージェントを配置するための適切な境界と品質チェックの実施に関する課題に直面します。また、エージェントは自律性が高いため、機密データに不適切にアクセスしたり、不正な決定を下したり、予期せぬ行動を取ったりする可能性があるため、安心して大規模に展開することが難しくなります。開発チームは、エージェントの自律性を実現すると同時に、許容範囲内で業務を遂行し、顧客や従業員の前に配置するために必要な品質とのバランスを取る必要があります。

現在利用可能な新機能により、このプロセスを推測する必要がなくなり、信頼できる AI エージェントを自信を持って構築してデプロイできるようになります。

  • AgentCore のポリシー (プレビュー) — 詳細な権限を持つポリシーを使用して実行前に AgentCore Gateway ツールの呼び出しをインターセプトすることにより、エージェントアクションの明確な境界を定義します。
  • AgentCore Evaluations (プレビュー) — 組み込みエバリュエーターを使用して、実際の行動に基づいてエージェントの質をモニタリングします。正確性や有用性などのディメンションについては、組み込みのエバリュエーターと、ビジネス固有の要件に対応するカスタムエバリュエーターを使用します。

また、エージェントができることを拡張する機能も導入しています。

  • AgentCore Memory のエピソード機能 — エージェントが経験から学び、同様の状況でソリューションを適応させて、将来の同様のタスクの一貫性とパフォーマンスを向上させるのに役立つ新しい長期戦略です。
  • AgentCore Runtime の双方向ストリーミング — 音声エージェントを導入して、ユーザーとエージェントの両方が自然な会話フローに従って同時に話せるようにします。

エージェントを正確に制御するための AgentCore のポリシー
ポリシーにより、エージェントが実行できるアクションやエージェントの推論ループの外部に適用できるアクションを制御できるため、エージェントは、ツール、システム、またはデータに到達する前に決定が検証を必要とする自律的なアクターとして扱われます。AgentCore Gateway と統合することで、ツールの呼び出しを発生時に傍受し、運用速度を維持しながらリクエストを処理できるため、ワークフローの高速性と応答性が維持されます。

自然言語を使用してポリシーを作成することも、Cedar (きめ細かな権限を持つオープンソースのポリシー言語) を直接使用することもできます。これにより、カスタムコードを記述しなくても、ルールを設定、理解、監査するプロセスが簡素化されます。このアプローチにより、コーディングの専門知識がなくてもルールを作成、理解、監査できる開発、セキュリティ、コンプライアンスチームがポリシーを作成しやすくなります。

ポリシーは、エージェントの構築方法や使用するモデルとは無関係に機能します。API、AWS Lambda 関数、モデルコンテキストプロトコル (MCP) サーバー、サードパーティサービスなど、どのツールとデータエージェントがアクセスできるか、どのようなアクションをどのような条件で実行できるかを定義できます。

チームは明確なポリシーを一度定義すれば、それを組織全体に一貫して適用できます。ポリシーが整っていれば、開発者は革新的なエージェント体験を自由に生み出すことができ、組織はエージェントを配置して、定義された境界やコンプライアンス要件の範囲内にとどまることを認識しながら、自律的に行動することができます。

エージェントコアでのポリシーの使用
まず、AgentCore コンソールの新しい [ポリシー] セクションでポリシーエンジンを作成し、それを 1 つ以上の AgentCore Gateway に関連付けることができます。

ポリシーエンジンは、ゲートウェイエンドポイントで評価されるポリシーの集まりです。ゲートウェイをポリシーエンジンに関連付ける場合、ポリシーの結果を適用する (ツールコールへのアクセスを効果的に許可または拒否する) か、ログのみを出力するかを選択できます。ログは、本番稼働環境で有効にする前にポリシーをテストして検証するのに役立ちます。

次に、適用するポリシーを定義して、関連する AgentCore Gateway が提供するツールへのアクセスをきめ細かく制御できます。

Amazon Bedrock AgentCore ポリシーコンソール

ポリシーを作成するには、自然言語による説明 (使用する認証クレームの情報を含める必要があります) から始めることも、Cedar コードを直接編集することもできます。

Amazon Bedrock AgentCore ポリシーの追加

自然言語ベースのポリシーオーサリング機能により、きめ細かなポリシーをより簡単に作成できます。正式なポリシーコードを書く代わりに、わかりやすい英語でルールを記述できます。システムはユーザーの意図を解釈し、候補となるポリシーを生成し、ツールスキーマと照合して検証し、自動推論を使用して安全条件をチェックします。つまり、過度に寛容なプロンプト、過度に制限されたプロンプト、または決して満たすことができない条件を含むプロンプトを特定します。

一般的な大規模言語モデル (LLM) による解釈とは異なり、この機能はツールの構造を理解し、適用できないルールにはフラグを立てながら、構文的に正しく、意味的に意図したとおりのポリシーを生成します。モデルコンテキストプロトコル (MCP) サーバーとしても利用できるため、通常の開発ワークフローの一部として、お好みの AI 支援コーディング環境でポリシーを直接作成して検証できます。このアプローチにより、オンボーディング時間が短縮され、Cedar の専門知識がなくても質の高い承認ルールを作成できます。

次のサンプルポリシーでは、AgentCore Gateway への認証に使用される JWT トークンの OAuth クレームの情報 (ロール用) とツール呼び出しに渡される引数 (context.input) を使用して、払い戻しを処理するツールへのアクセスを検証します。refund-agent ロールを持つ認証ユーザーのみがツールにアクセスできますが、金額 (context.input.amount) には 200米ドル未満という制限が課せられています。

permit(
  principal is AgentCore::OAuthUser,
  action == AgentCore::Action::"RefundTool__process_refund",
  resource == AgentCore::Gateway::"<GATEWAY_ARN>"
)
when {
  principal.hasTag("role") &&
  principal.getTag("role") == "refund-agent" &&
  context.input.amount < 200
};

継続的かつリアルタイムの品質インテリジェンスを実現するための AgentCore Evaluations
AgentCore Evaluations は、実際の行動に基づいてエージェントのパフォーマンスを継続的にモニタリングおよび分析するのに役立つフルマネージドサービスです。AgentCore Evaluations では、組み込みのエバリュエーターを使用して、正確性、有用性、ツール選択の精度、安全性、目標達成率、コンテキストの関連性などの一般的な品質評価を行うことができます。また、選択したプロンプトとモデルで構成されたカスタムモデルベースのスコアリングシステムを作成して、サービスがエージェントのライブインタラクションをサンプリングして継続的にスコアリングしながら、ビジネスに合わせたスコアリングを行うこともできます。

AgentCore Evaluations の結果はすべて、AgentCore Observability のインサイトとともに Amazon CloudWatch で視覚化されるため、一元的にモニタリングできます。また、評価スコアにアラートやアラームを設定して、エージェントの品質を積極的にモニタリングし、メトリクスが許容範囲を超えたときに対応することもできます。

AgentCore Evaluations は、デプロイ前にエージェントをベースラインと照合して欠陥のあるバージョンがユーザーに届かないようにするテストフェーズで使用できます。また、本番稼働環境ではエージェントの継続的な改善に使用できます。品質メトリクスが定義されたしきい値を下回ると (たとえば、カスタマーサービスエージェントの満足度が 8 時間にわたって低下したり、礼儀正しさのスコアが 8 時間で 10% 以上低下したりした場合)、システムは即座にアラートをトリガーし、品質問題をより迅速に検出して対処するのに役立ちます。

AgentCore Evaluations の使用
AgentCore コンソールの新しい [評価] セクションでオンライン評価を作成できます。データソースとして、AgentCore エージェントエンドポイントまたは外部エージェントが使用する CloudWatch ロググループを使用できます。たとえば、ここでは、プレビューで AgentCore を導入したときに共有したのと同じサンプルカスタマーサポートエージェントを使用しています。

Amazon Bedrock AgentCore Evaluations ソース

次に、既存のテンプレートから定義したり、ゼロから構築したりできるカスタムエバリュエーターを含め、使用するエバリュエーターを選択できます。

Amazon Bedrock AgentCore Evaluations ソース

たとえば、カスタマーサポートエージェントの場合、次のようなメトリクスを選択できます。

  • 正確性 — エージェントの回答に含まれる情報が事実に基づいて正確かどうかを評価します
  • 忠実性 — 回答の情報が提供されたコンテキスト/ソースによってサポートされているかどうかを評価します
  • 有用性 — エージェントの対応がどれほど有用で価値があるかをユーザーの視点から評価します
  • 有害性 — 応答に有害なコンテンツが含まれているかどうかを評価します
  • ステレオタイプ — 個人やグループについて一般化しているコンテンツを検出します

ツール選択とツールパラメータ精度のエバリュエーターは、エージェントがタスクに適したツールを選択し、ユーザークエリから正しいパラメーターを抽出しているかどうかを理解するのに役立ちます。

評価の作成を完了するには、サンプリングレートとオプションのフィルターを選択できます。権限については、新しい AWS Identity and Access Management (IAM) サービスロールを作成するか、既存のサービスロールを渡すことができます。

Amazon Bedrock AgentCore Evalutions 作成

結果は評価されると、Amazon CloudWatch の AgentCore Observability ダッシュボードに公開されます。棒グラフのセクションのいずれかを選択すると、対応するトレースが表示され、その特定の評価の背後にある要求と応答についてより深いインサイトを得ることができます。

Amazon AgentCore Evaluations の結果

結果は CloudWatch に保存されるため、そのすべての機能を使用して、たとえばアラームや自動化などを作成できます。

AgentCore Evaluations でのカスタムエバリュエータの作成
カスタムエバリュエーターを使用すると、エージェント固有の要件に合わせたビジネス固有の品質メトリクスを定義できます。カスタムエバリュエーターを作成するには、温度や最大出力トークンなどの推論パラメーターを含むモデルと、判断指示を含むカスタマイズされたプロンプトを用意します。ビルトインのエバリュエーターが使用するプロンプトから開始することも、新しいエバリュエーターを入力することもできます。

AgentCore Evaluations カスタムエバリュエーター作成

次に、出力で生成するスケールを定義します。数値でも、定義したカスタムテキストラベルでもかまいません。最後に、評価がモデルによってシングルトレースで計算されるか、フルセッションで計算されるか、またはツール呼び出しごとに計算されるかを設定します。

AgentCore Evaluations カスタムエバリュエータースケール

体験型学習のための AgentCore Memory エピソード機能
AgentCore Memory は、AI エージェントが過去の対話を記憶できるようにするフルマネージドサービスで、エージェントが過去の経験から学び、その教訓を将来の対話でより役立つ支援を提供できるようにする、新しい長期記憶戦略が含まれるようになりました。

エージェントに旅行を予約することを検討してください。エージェントは、時間が経つにつれて、クライアントとのミーティングのために仕事で旅行するときにフライトを後の時間に移動する必要がある場合など、お客様の予約パターンから学習します。クライアントとのミーティングを含む次回の予約を開始すると、エージェントは学習したパターンに基づいて柔軟な返品オプションを積極的に提案します。特定の旅行習慣を学ぶ経験豊富なアシスタントと同じように、エピソード記憶を持つエージェントは、個々のニーズを認識してそれに対応できるようになりました。

新しいエピソード機能を有効にすると、AgentCore Memory は、エージェントとのやり取りのコンテキスト、推論プロセス、実行されたアクション、結果を記録する構造化されたエピソードをキャプチャし、リフレクションエージェントはこれらのエピソードを分析して、より幅広いインサイトとパターンを抽出します。エージェントは、似たようなタスクに直面したときに、学んだことを取り戻して意思決定の一貫性を高め、処理時間を短縮できます。これにより、考えられるすべての提案の長いリストではなく、エージェントがタスクを完了するために必要な特定の学習のみをエージェントコンテキストに含めることができるため、カスタムインストラクションの必要性が減ります。

より自然な会話を実現する AgentCore Runtime 双方向ストリーミング
AgentCore Runtime を使用すると、数行のコードでエージェンティックアプリケーションをデプロイできます。自然で応答性の高い会話体験を簡単にデプロイするために、AgentCore Runtime は双方向ストリーミングをサポートするようになりました。この機能により、音声エージェントはユーザが話している間も聞き取って適応できるため、担当者は応答の途中でエージェントの話を中断し、エージェントが現在のアウトプットを完了するのを待たずに、エージェントに新しいコンテキストにすぐに順応させることができます。双方向ストリーミングは、ユーザーが完全な応答を待たなければならない従来のターン制の対話とは異なり、エージェントがユーザーの発言に基づいて応答を動的に変更する、流れるような自然な会話を生み出します。

このような会話体験をゼロから構築するには、同時コミュニケーションの複雑な流れを処理するための多大なエンジニアリング努力が必要です。双方向ストリーミングは、エージェントが入力を処理しながら出力を生成し、中断を正常に処理し、会話が動的に変化してもコンテキストを維持するために必要なインフラストラクチャを管理することで、これを簡素化します。人間の会話の流動的な性質に自然に適応するエージェントを配備できるようになりました。つまり、対話の流れを失うことなく、考えの途中での中断、コンテキストの切り替え、明確化をサポートできます。

知っておくべきこと
Amazon Bedrock AgentCore (ポリシーのプレビューを含む) は、米国東部 (オハイオ、バージニア北部)、米国西部 (オレゴン)、アジアパシフィック (ムンバイ、シンガポール、シドニー、東京)、および欧州 (フランクフルト、アイルランド) の AWS リージョンでご利用いただけます。AgentCore Evaluations のプレビューは、米国東部 (オハイオ、バージニア北部)、米国西部 (オレゴン)、アジアパシフィック (シドニー)、および欧州 (フランクフルト) リージョンでご利用いただけます。リージョンごとの提供状況や今後のロードマップについては、AWS Capabilities by Region をご覧ください。

AgentCore では、前払いの義務なしで使用した分だけ支払うことができます。料金の詳細については、Amazon Bedrock の料金ページにアクセスしてください。AgentCore は AWS 無料利用枠の一部でもあり、AWS の新規のお客様は無料で利用を開始し、主要な AWS サービスを試すことができます。

これらの新機能は、CreWAILangGraphLlamaIndexStrands Agents などのあらゆるオープンソースフレームワークと、あらゆる基盤モデルで動作します。AgentCore サービスは一緒に使用することも、単独で使用することもできます。AgentCore オープンソース MCP サーバーを使用して、お気に入りの AI 支援開発環境を使い始めることができます。

詳細を確認してすぐに使い始めるには、「AgentCore デベロッパーガイド」をご覧ください。

Danilo

原文はこちらです。