メインコンテンツに移動

AWS DevOps エージェント

AWS DevOps エージェント

インシデントをプロアクティブに解決および防止する自律型 AI エージェントを使用して、運用上の優秀性を高めましょう。

AWS DevOps エージェントとは

AWS DevOps エージェントは、インシデントの解決とプロアクティブな防止、アプリケーションの信頼性とパフォーマンスの最適化、AWS、マルチクラウド、オンプレミス環境にわたるオンデマンド SRE タスクの処理など、いつでも利用可能な運用チームメンバーです。DevOps エージェントは、経験豊富な DevOps エンジニアが行うように、アプリケーションとその関係を学習し、オブザーバビリティツール、ランブック、コードリポジトリ、CI/CD パイプラインを操作し、すべての環境にわたるテレメトリ、コード、デプロイメントデータを相互に関連付けることで、インシデントを調査し、運用の改善点を特定します。質問をしたり、状況に応じた回答を即座に得たり、保存してチームと共有できるカスタムチャートやレポートを作成したりできます。

メリット

    AWS DevOps エージェントは、常時稼働の自律的なオンコールエンジニアです。午前 2 時でも、ピーク時でも、アラートを受け取った瞬間に調査を開始し、アプリケーションの最適なパフォーマンスをすばやく復元します。また、インシデントを 24 時間 365 日自律的に優先順位付けし、根本原因分析と解決のためのアクションを実行します。アプリケーションのリソースと関係を理解することで、依存関係と相互作用をすばやく把握できます。さらに、監視結果、検出結果、緩和策を Slack、ServiceNow、PagerDuty などのお好みのコミュニケーションチャネルを介して自動的にルーティングすることで、インシデント対応を合理化します。

    AWS DevOps エージェントは、過去のインシデントのパターンを分析し、次の4つの主要分野を強化するための実用的な推奨事項を提供します: オブザーバビリティ、インフラ最適化、デプロイメントパイプラインの改善、アプリケーションの回復力。レコメンデーションには、実装をコーディングエージェントや同僚に引き渡してアプリケーションやインフラストラクチャのコードを更新してもらうためのエージェント対応仕様が含まれています。これにより、バックログを管理する必要なく、継続的な改善が可能になります。

    AWS DevOps エージェントをワークフローやオブザーバビリティツール、ランブック、コードリポジトリ、CI/CD パイプラインと安全に統合することで、運用データ内の新たなインサイトを活用できます。AWS DevOps エージェントには、Amazon CloudWatch、Dynatrace、Datadog、Grafana、New Relic、Splunk などのオブザーバビリティツールや、Azure DevOps、GitHub や GitLab などのコードリポジトリおよび CI/CD パイプラインとの統合が組み込まれています。AWS DevOps エージェントは、独自の MCP サーバーに安全接続することで、組み込みの統合機能を超えて拡張することができます。これにより、組織独自のカスタムツール、専門的なプラットフォーム、または独自のチケッティングシステムなど、追加のツールとの統合が可能になります。

    AWS DevOps エージェントは、お客様の環境に関する深い理解を活用して、質問をするだけでなく、アプリケーション環境をより深く掘り下げて、カスタムチャートやレポートを作成、保存、共有できるようにします。リソースの状態の問い合わせ、インシデントパターンの調査、デプロイ状況の追跡、予防策の検討などを、すべて自然言語インターフェースで行えます。業務メトリクスの追跡やチームへのインサイトの伝達に役立つカスタムチャートやレポートを作成、保存、共有できます。

お客様

United Airlines

「United Airlines では、毎日 50 万人以上の乗客を運んでいます。私たちは約 38,000 の Dynatrace OneAgents を抱え、ハイブリッドクラウド環境、500 を超える AWS アカウント、20,000 を超える AWS Lambda 関数、Amazon ECS マイクロサービス、その他多数のサービス全体を監視しています。この規模では、以前は異なるドメインで同じ機能を実行する複数のツールを使用していたため、トラブルシューティング中にギャップやブラックボックスが発生していました。Dynatrace を搭載した AWS DevOps エージェントは、この状況を一変させました。Dynatrace は迅速かつ正確に問題を検出し、原因となるアプリケーション層を特定します。その後、エージェントがさらに調査し、問題を解決するための正確な手順を提示します。これらはすべて Dynatrace に直接入力されます。午前 3 時にインシデントコールを開始してツールを切り替えるのではなく、一元的に回答を得ることができるようになりました」

United Airlines、Reliability and Observability 部門 Principal Engineer、Jason Eckhart 氏

Missing alt text value

T-Mobile

「AWS が DevOps エージェントを導入したとき、T-Mobile は初日からその存在感を実感できました。設計パートナーとして、AWS DevOps エージェントが本番環境全体の根本原因分析をどのように大幅に改善してきたかを見てきました。実際のフィードバックは、製品をどのように進化させるかに直接影響しました。 

当社のインフラストラクチャは複数のクラウドとオンプレミス環境にまたがっており、アプリケーションログはオンプレミスの Splunk デプロイに集中しています。「AWS DevOps エージェントは Splunk とシームレスに統合し、これらの多様な環境にわたるログを分析できるため、ソリューションのパイロット運用を継続する上で大きな効果を発揮しています」

T-Mobile、Technology Operations 部門 SVP、Aravind Manchireddy 氏

Missing alt text value

ウェスタンガバナーズ大学

191,000 人以上の学生にサービスを提供している大手オンライン大学であるウエスタンガバナーズ大学 (WGU) は、re:Invent でのプレビューローンチに先駆けて Amazon DevOps エージェントを本番環境にデプロイした最初の組織の 1 つです。Dynatrace の大規模ユーザーである WGU は、DevOps エージェントのネイティブ Dynatrace 統合を活用しました。これにより、Dynatrace Intelligence から問題記録を自動的にエージェントに転送し、調査の上、充実した検出結果を Dynatrace に直接返すことができました。

最近の本稼働調査で、WGU の SRE チームは DevOps エージェントを使用してサービス中断シナリオを分析し、合計解決時間を推定 2 時間からわずか 28 分に短縮し、MTTR が 77% 向上しました。エージェントは Lambda 関数の設定内の根本原因を迅速に特定し、以前は未知の内部文書にしか存在しなかった重要な運用上の知識が明らかになりました。

「確実な証拠を提供できたことで、Lambda が原因であることが判明しました。この調査のメトリクスは、フロントエンドで見たものと一致するほぼ完璧なものでした」 続けて、「昨日は大きな勝利でした。発見を加速し続けることができれば、組織にとってどれほど大きな勝利になるかを言い表す言葉が見つかりません」とも述べています。 DevOps エージェントスキルの機能を活用する計画により、WGU は調査時間をさらに短縮する見込みです。

ウェスタンガバナーズ大学、Director of Technical Operations、Angel Marchena 氏

Missing alt text value

Zenchef

Zenchef は、レストランが 1 つの手数料無料のシステムから予約、テーブルのオペレーション、デジタルメニュー、支払い、ゲストマーケティングを管理できるようにするレストランテクノロジープラットフォームです。複数の事業部門にわたる複数の本番環境を管理する専任の DevOps チームは、企業のハッカソン中に下流のパートナーに影響する API 統合の問題が表面化し、エンジニアが出来事に取り組んでも、監視中に正しい方向を示すような重要な点は何も見つからなかったという現実的な試練に直面しました。

エンジニアをハッカソンから引き離すのではなく、チームは問題を DevOps エージェントに持ち込みました。エージェントは問題を体系的に調査し、認証が原因の一つではないことを確認し、調査の焦点を ECS のデプロイに移し、最終的に、新しいバージョンがデータベース内の認識されない列挙値を適切に処理できなかったというコードリグレッションが根本原因であることを突き止めました。調査全体が 20~30 分で終了し、手動で 1~2 時間かかっていた場合と比較して約 75% 短縮でき、検出結果は担当エンジニアに直接共有されました。

「ハッカソン中は、調査できる帯域幅がほとんどなく、その必要もありませんでした。当社は常に数歩先を行く努力をしており、このようなプロアクティブな調査は、他では行えないことです。DevOps エージェントは、プラットフォームの動作方法を理解するための新しい視点をもたらしてくれました」

Zenchef、Platform Engineering Manager、Theo Massard 氏

Missing alt text value

ユースケース

インシデントへの対応と解決

AWS DevOps エージェントはインシデントを自律的に優先順位付けし、チームを迅速な解決へと導きます。 オブザーバビリティツール、コードリポジトリ、CI/CD パイプラインとの統合により、テレメトリ、コード、デプロイデータを関連付けて分析し、仮説、監視結果、検出結果を共有します。また、体系的な調査を通じて、システムの変更、入力の異常、リソースの制限、コンポーネントの障害、依存関係の問題に起因する、お客様の環境全体で発生した問題の根本原因を特定します。

自動インシデント調整

インタラクティブチャットを使用して調査を開始および主導できます。AWS DevOps エージェントはお客様の運用チームの一員として、ServiceNow や Slack などのコラボレーションツール内で直接動作することで検出結果を共有し、対応を調整します。必要に応じて、調査から AWS サポートケースを直接作成し、AWS サポートの専門家にコンテキストを即時に提供して、より迅速な解決を促します。

将来の運用上のインシデントの予防

AWS DevOps エージェントは、過去のインシデントのパターンを分析して、オブザーバビリティ、インフラストラクチャ最適化、デプロイパイプラインの強化、アプリケーションの回復力という 4 つの主要領域を強化する実用的なレコメンデーションを提供します。 

オンデマンド SRE タスク処理を加速

コンソール間を移動しなくても、運用上の質問に対して、状況に応じた回答を即座に得ることができます。自然な会話を通じて、リソースの状態の問い合わせ、インシデントパターンの調査、デプロイの追跡、レコメンデーションの検討を行えます。よくある質問以外にも、毎日のオペレーション状態の概要や 4xx エラートレンドなど、カスタムチャートやレポートを作成、保存、共有できます。会話履歴は保持されるため、コンテキストを失うことなく以前のクエリを基に積み上げることができます。

今日お探しの情報は見つかりましたか?

ぜひご意見をお寄せください。ページのコンテンツ品質の向上のために役立てさせていただきます