- 製品›
- クラウドオペレーション›
- AWS DevOps エージェントの機能
AWS DevOps エージェントの機能
常時稼働の自律的なインシデント対応
すべて開くAWS DevOpsエージェントは、ServiceNowのようなチケットおよびアラームシステムと統合し、インシデントチケットから自動的に調査を開始することで、既存のワークフロー内でのインシデント対応を加速し、平均修復時間(MTTR)を短縮します。
インタラクティブなチャットを使って、調査を開始し、進めることもできます。AWS DevOpsエージェントは、オペレーションチームの一員として機能し、ServiceNowやSlackなどのコラボレーションツール内で直接作業し、発見事項を共有して対応を調整します。必要に応じて、調査から直接AWSサポートケースを作成し、AWSサポートの専門家に即座に状況を伝えることで、より迅速な解決を図ります。
AWS DevOps エージェントは、オブザーバビリティツール、コードリポジトリ、CI/CD パイプラインと連携し、テレメトリ、コード、デプロイデータを相関・分析し、探索した仮説、観察結果、根本原因の発見を共有します。体系的な調査を通じて、AWS DevOps エージェントは、システム変更、入力の異常、リソース制限、コンポーネントの故障、および依存関係の問題に起因する問題の根本原因を、環境全体で特定します。
AWS DevOpsエージェントが根本原因を特定すると、事故を解決するための対応、成功の確認、必要に応じた変更の元に戻す手順を含む詳細な緩和プランを提供します。AWS DevOps Agent には、Kiro 自律エージェントで実装できるコードの改善など、別のフロンティアエージェントが実装できるエージェント対応命令も用意されています。
AWS DevOps Agent は、システムの変更、入力の異常、リソースの制限、コンポーネントの障害、依存関係の問題から発生するアラームをスタック全体で体系的に調査することで、対象を絞った緩和ステップで DevOps チームを導き、平均解決時間 (MTTR) を数時間から数分に短縮します。 例:
- システムの変更:最近のコード変更により Amazon DynamoDB がスロットリングされ、その結果、非効率的な使用によるレイテンシーが高くなったことがインシデントの原因である場合、AWS DevOps エージェントは即時の緩和策として変更をロールバックすることを推奨することがあります。
- システムの変更:コードデプロイ後のフィルターポリシーの不一致による Amazon SNS サブスクリプションエラーが原因でインシデントが発生した場合、AWS DevOps エージェントは、メッセージフローを回復するための即時の緩和策として、メッセージ構造を変更したコード変更をロールバックすることを推奨する場合があります。
- 入力の異常:制限を超えるトラフィックが多いことが原因で AWS Lambda が通知を抑制したことが原因でインシデントが発生した場合、AWS DevOps Agent は即時の緩和策として同時実行制限の引き上げを推奨することがあります。
- 入力の異常:メッセージサイズの問題による Amazon SNS メッセージ発行の失敗が原因でインシデントが発生した場合、AWS DevOps エージェントは、即時の緩和策として Amazon SNS メッセージ公開に検証を追加することを推奨する場合があります。
- リソース制限:レート制限の超過による API スロットリングが原因でインシデントが発生した場合、AWS DevOps Agent は即時の緩和策としてレート/バースト制限の引き上げを推奨することがあります。
- リソースの制限:書き込み容量の超過による Amazon DynamoDB スロットリングが原因でインシデントが発生した場合、AWS DevOps エージェントは即時の緩和策として書き込み容量を増やすことを推奨することがあります。
- コンポーネント障害:インシデントがパフォーマンスの低下によるコールドスタートのレイテンシーによって引き起こされた場合、AWS DevOps Agent は即時の緩和策としてプロビジョニングされた同時実行数を増やすことを推奨することがあります。
将来のインシデントを積極的に防ぐ
すべて開くAWS DevOps エージェントは、過去のインシデントのパターンを分析し、次の4つの主要分野を強化するための実用的な推奨事項を提供します:可観測性、インフラ最適化、デプロイメントパイプラインの改善、アプリケーションの回復力。例えば、インフラストラクチャの最適化の分野では、AWS DevOps エージェントは、予期しないトラフィックスパイクに対応するために、EKS クラスターに Kubernetes の水平ポッドオートスケーラー(HPA)を推奨します。
AWS DevOps エージェントは、可観測性のカバレッジのギャップやアラームを微調整する機会を特定し、検知までの平均時間(MTTD)を短縮することで、問題が大きくなる前に特定できるようにします。例えば、最近の障害に関するインシデント検出に時間がかかりすぎることが判明した場合、AWS DevOps エージェントは、検出時間を短縮し長時間の障害を防ぐために、エラーの発生源に近い場所での監視や異常検知の実装を推奨することがあります。
学習ループを使用して、AWS DevOps エージェントは推奨事項の改善を続け、運用上の優先事項に合わせ、チームの推奨事項へのフィードバックに基づいて、組織のニーズにより適した関連性の高い推奨事項を提供します。
AWS DevOpsエージェントは、過去のインシデントのパターンを分析し、将来の障害を防止し、システムの回復力を強化するための具体的な推奨を提供します。実際のインシデントを評価することで、オブザーバビリティ、インフラストラクチャの最適化、デプロイメントパイプラインの強化、アプリケーションのレジリエンスという4つの主要分野で、同様の問題の頻度と影響の両方を軽減する具体的かつ実行可能な改善がもたらされます。
- オブザーバビリティの向上:AWS DevOps エージェントは、重要な認証システムの検出時間を短縮し、長時間の統合障害を防ぐために、アラームのしきい値を20分間で15回の失敗から5分間で3回の失敗に調整することを推奨する場合があります。
- オブザーバビリティの向上:AWS DevOps エージェントは、IAM ロールの変更における異常な「アクセス拒否」パターンを追跡するために、特定の CloudWatch メトリクスフィルターの実装を推奨する場合があります。これにより、従来のアラームと比べてより迅速に検出できるようになります。
- インフラストラクチャの改善:Amazon DynamoDB テーブルスキーマがサービスのメインアクセスパターンと一致せず、テーブル全体のスキャンが非効率的であることを分析した結果、AWS DevOps Agent は、頻繁にクエリされる属性をパーティションキーとしてグローバルセカンダリインデックス (GSI) を作成することを推奨しています。これにより、操作がスキャンからクエリに変わり、待機時間が2,500~3,500msから100ms以下に短縮され、スロットリングも防止されます。
- インフラストラクチャの改善:AWS DevOps エージェントの分析によると、アプリケーションには十分なリソースがありますが、トラフィックが急増した際にすべてのリクエストが単一のインスタンスに集中する単一ポッドのボトルネックによって制約を受けています。AWS DevOps エージェントは、Kubernetes クラスターに水平ポッドオートスケーラーを追加することを推奨する場合があります。これにより、需要に応じてサービスを自動的に水平スケーリングし、複数のポッドに負荷を効果的に分散させることができます。
- デプロイパイプライン:失敗した Amazon ECS デプロイメントを分析した後、AWS DevOps エージェントは、自動ロールバックの有効化や Amazon EventBridge を使ったデプロイメント状態の監視を推奨する場合があります。これらの変更により、タスクのヘルスチェックの障害を迅速に検出して対処でき、顧客の取引の中断を防ぐことができます。
- デプロイパイプライン:デプロイの失敗を分析した後、 AWS DevOps エージェントは Amazon ECS タスク定義の Amazon マネージドサービス for Prometheus 接続の必須デプロイ前検証を推奨する場合があります。この推奨事項は、デプロイメント中に接続の問題を検出することで、デプロイの失敗を減らすことができます。
DevOps ツールをさらに活用しましょう
すべて開くAWS DevOps エージェントは、環境について学習するにつれて、コンテナ、ネットワークコンポーネント、ロググループ、アラーム、CI/CD デプロイメントなどのアプリケーションリソースを特定し、それらがどのように接続されているかをマッピングして、アプリケーションリソースマップを作成します。これにより、このリソースのトポロジーとあなたのテレメトリ、コード、デプロイデータを組み合わせて、問題の根本原因を正確に特定することができます。
AWS DevOps エージェントは、多くの可観測性ツール(Amazon CloudWatch、Dynatrace、Datadog、New Relic、Splunk)、コードリポジトリ、および CI/CD パイプライン(GitHub Actions とリポジトリ、GitLab ワークフローとリポジトリ)との組み込み統合を提供します。
AWS DevOpsエージェントは、独自のMCPサーバーに接続することで、組み込みの統合機能を超えて拡張することができます。これにより、組織独自のカスタムツール、専門的なプラットフォーム、または独自のチケッティングシステムなど、追加のツールとの統合が可能になります。例えば、自分のMCPサーバーに接続することで、GrafanaのアラームやPrometheusのメトリクス、Confluenceのランブックなどのオープンソースの可観測性シグナルと統合できます。
今日お探しの情報は見つかりましたか?
ぜひご意見をお寄せください。ページのコンテンツ品質の向上のために役立てさせていただきます