Amazon OpenSearch Service のエージェント AI でオブザーバビリティとトラブルシューティングを効率化

本記事は 2026 年 4 月 2 日に公開された「Agentic AI for observability and troubleshooting with Amazon OpenSearch Service」を翻訳したものです。

Amazon OpenSearch Service は、組織のオブザーバビリティワークフローを支えるサービスです。Site Reliability Engineering (SRE) チームや DevOps チームは、テレメトリデータを集約・分析する統合ビューとして活用できます。しかしインシデント発生時、シグナルの相関分析や根本原因の特定には、ログ分析の深い専門知識と何時間もの手作業が必要です。根本原因の特定は依然として手動に頼る部分が大きく、多くのチームにとってサービス復旧の遅延やエンジニアリングリソースの消耗を招くボトルネックとなっています。

以前のブログ記事では、オブザーバビリティエージェントの構築方法を Amazon OpenSearch Service と Amazon Bedrock を使って紹介し、平均復旧時間 (MTTR) の短縮を実現しました。今回、Amazon OpenSearch Service はこれらの機能の多くを OpenSearch UI に直接組み込みました。追加のインフラストラクチャは不要です。MTTR の短縮を加速する 3 つのエージェント AI 機能を提供します。

エージェントチャットボット — 表示中のコンテキストと基盤データにアクセスし、エージェント推論を適用してツールでデータをクエリし、インサイトを生成します。
調査エージェント — 仮説駆動型の分析でシグナルデータを深掘りし、各ステップで推論過程を説明します。
エージェントメモリ — 両エージェントを支え、使うほど精度と速度が向上します。

本記事では、各機能が連携してエンジニアがアラートから根本原因まで数分で到達する方法を紹介します。また、調査エージェントが複数のインデックスにまたがるデータを自動的に相関分析し、根本原因の仮説を導き出すサンプルシナリオも解説します。

エージェント AI 機能の連携

AI 機能は OpenSearch UI の Ask AI ボタンからアクセスできます。次の図のように、エージェントチャットボットのエントリポイントとなります。

エージェントチャットボット

チャットボットを開くには、Ask AI を選択します。

チャットボットは現在のページのコンテキストを理解しているため、質問する前から表示中の内容を把握しています。データに関する質問、調査の開始、概念の説明を依頼できます。リクエストを理解すると、チャットボットはツールを使ってデータにアクセスし、Discover ページでクエリを生成・実行して、データに基づいた回答を生成します。Dashboard ページでも使用でき、特定のビジュアライゼーションから会話を開始して、次の画像のようにサマリーを取得できます。

調査エージェント

多くのインシデントは 1〜2 回のクエリでは解決できないほど複雑です。調査エージェントを活用できます。調査エージェントは plan-execute-reflect エージェントを使用します。反復的な推論と段階的な実行が必要な複雑なタスク向けのエージェントです。プランナーとして Large Language Model (LLM) を 1 つ、エグゼキューターとしてもう 1 つの LLM を使用します。エンジニアがエラーレートの急上昇やレイテンシーの異常を発見した場合、調査エージェントに調査を依頼できます。調査エージェントの重要なステップの 1 つが再評価です。各ステップの実行後、エージェントはプランナーと中間結果を使ってプランを再評価します。プランナーは必要に応じてプランを調整したり、ステップをスキップしたり、新しい情報に基づいてステップを動的に追加したりできます。プランナーを使って、エージェントは最も可能性の高い仮説と推奨事項を中心とした根本原因分析レポートを生成します。すべての推論ステップ、発見事項、最終仮説を裏付ける根拠を含む完全なエージェントトレースも提供されます。フィードバックの提供、独自の発見事項の追加、調査目標の反復、エージェントの推論の各ステップの確認と検証が可能です。経験豊富なインシデント対応者の作業を模倣しつつ、数分で自動的に完了します。チャットボットから「/investigate」スラッシュコマンドを使って、進行中の会話を基に調査を開始したり、別の調査目標で新たに開始したりもできます。

エージェントの動作

自動クエリ生成

SRE や DevOps エンジニアとして、主要サービスでレイテンシーが上昇しているというアラートを受け取った状況を考えてみましょう。OpenSearch UI にログインし、Discover ページに移動して Ask AI ボタンを選択します。Piped Processing Language (PPL) クエリ言語の専門知識がなくても、「レイテンシーが 10 秒を超えるリクエストをすべて検索」と入力できます。チャットボットはコンテキストと表示中のデータを理解し、リクエストを検討して適切な PPL コマンドを生成し、クエリバーを更新して結果を取得します。クエリでエラーが発生した場合も、チャットボットはエラーを学習して自己修正し、クエリを反復して結果を取得します。

調査と調査管理

通常であれば複数のログを手動で分析・相関して根本原因を探る必要がある複雑なインシデントでは、Start Investigation を選択して調査エージェントを起動できます。調査の目標と、指示したいコンテキストや仮説を提供できます。例えば、「サービス全体で広範囲に発生している高レイテンシーの根本原因を特定してください。低速スパンの TraceID を使用して、関連するログインデックスの詳細なログエントリと相関させてください。影響を受けたサービス、オペレーション、エラーパターン、インフラストラクチャまたはアプリケーションレベルのボトルネックをサンプリングなしで分析してください」のように指定します。

エージェントは会話の一部として、デバッグしようとしている問題の調査を提案します。

エージェントはインデックス、関連する時間範囲などの関連情報とともに目標を設定し、調査用の Notebook を作成する前に確認を求めます。Notebook は OpenSearch UI 内でリッチなレポートを作成する機能で、ライブかつコラボレーティブです。調査の管理に役立ち、後日の再調査も可能です。

調査が開始されると、エージェントはまずログシーケンスとデータ分布の簡易分析を行い、外れ値を検出します。次に、調査を一連のアクションに計画し、特定のログタイプと時間範囲のクエリなど各アクションを実行します。各ステップで結果を振り返り、最も可能性の高い仮説に到達するまでプランを反復します。エージェントの作業中は中間結果が同じページに表示され、推論をリアルタイムで追跡できます。調査エージェントがサービストポロジーを正確にマッピングし、調査の重要な中間ステップとして活用している様子を確認できます。

調査が完了すると、調査エージェントは最も可能性の高い仮説として不正検出のタイムアウトを結論付けます。関連する発見事項として、決済サービスのログエントリ「currency amount is too big, waiting for fraud detection」が示されます。これは、高額取引が不正検出の呼び出しをトリガーし、トランザクションのスコアリングと評価が完了するまでリクエストをブロックするという既知のシステム設計と一致します。エージェントは 2 つの別々のインデックス（元の期間データを格納するメトリクスインデックスと、決済サービスのエントリを格納する関連ログインデックス）のデータを相関させてこの発見に至りました。トレース ID を使ってインデックスを紐付け、レイテンシーの測定値とその原因を説明する特定のログエントリを結び付けました。

仮説と裏付けとなる証拠を確認すると、ドメイン知識や過去の類似問題の経験と合致する妥当な結果だと判断できます。仮説を承認し、仮説調査で提供された影響トレースのリクエストフロートポロジーを確認できます。

最初の仮説が有用でなかった場合は、レポート下部の代替仮説を確認し、より正確なものがあれば選択できます。追加の入力や前回の修正を加えて再調査を開始し、調査エージェントに再検討させることも可能です。

使い始めるには

エージェント AI 機能（制限あり）は OpenSearch UI で無料で利用できます。アカウントの OpenSearch Service ドメインで AI 機能を無効にしていない限り、OpenSearch UI アプリケーションですぐに利用可能です。AI 機能の有効化・無効化は、AWS マネジメントコンソールで OpenSearch UI アプリケーションの詳細ページに移動し、AI 設定を更新します。registerCapability API で AI 機能を有効化、deregisterCapability API で無効化することもできます。詳細は Agentic AI in Amazon OpenSearch Services を参照してください。

エージェント AI 機能は、ログインユーザーの ID と権限を使用して接続先データソースへのアクセスを認可します。ユーザーがデータソースへのアクセスに必要な権限を持っていることを確認してください。詳細は Getting Started with OpenSearch UI を参照してください。

調査結果は OpenSearch UI のメタデータシステムに保存され、サービスマネージドキーで暗号化されます。カスタマーマネージドキーを設定して、すべてのメタデータを独自のキーで暗号化することもできます。詳細は Encryption and Customer Managed Key with OpenSearch UI を参照してください。

AI 機能は Amazon Bedrock の Claude Sonnet 4.6 モデルで動作します。詳細は Amazon Bedrock Data Protection を参照してください。

まとめ

Amazon OpenSearch Service に追加されたエージェント AI 機能は、コンテキストを理解するエージェントチャットボット、完全な説明可能性を備えた仮説駆動型の調査、コンテキストの一貫性を保つエージェントメモリを提供し、平均復旧時間の短縮を支援します。エージェント AI 機能により、エンジニアリングチームはクエリの作成やシグナルの相関分析に費やす時間を減らし、確認された根本原因への対応により多くの時間を充てられます。ぜひ各機能を試して、アプリケーションで活用してみてください。

著者について

この記事は Kiro が翻訳を担当し、Solutions Architect の Takayuki Enomoto がレビューしました。

Amazon Web Services ブログ

Amazon OpenSearch Service のエージェント AI でオブザーバビリティとトラブルシューティングを効率化

エージェント AI 機能の連携

エージェントチャットボット

調査エージェント

エージェントの動作

自動クエリ生成

調査と調査管理

使い始めるには

まとめ

著者について

お役立ちリンク

フォローお願いいたします

学ぶ

リソース

デベロッパー

ヘルプ