Amazon DevOps Guru
アプリケーションの可用性を向上させる ML 駆動のクラウドオペレーションサービス
Amazon DevOps Guru は、アプリケーションの運用パフォーマンスと可用性の改善を容易にするように設計された、機械学習 (ML) を利用したサービスです。DevOps Guru は、通常の運用パターンから逸脱した動作を検出し、顧客に影響を与えるずっと前に運用上の問題を特定できます。
DevOps Guru は、長年の Amazon.com と AWS の優れた運用によって通知された機械学習モデルを使用して、異常なアプリケーションの動作 (レイテンシーの増加、エラー率、リソースの制約など) を特定し、潜在的な停止やサービスの中断を引き起こす可能性のある重大な問題を明らかにします。DevOps Guru が重大な問題を特定すると、アラートを自動的に送信し、関連する異常の概要、考えられる根本原因、および問題が発生した時期と場所に関するコンテキストを提供します。可能な場合、DevOps Guru は、問題を修正する方法に関するレコメンデーションも提供します。
ワンクリックでデプロイできる DevOps Guru は、AWS アプリケーションから運用データを自動的に取り込み、運用データの問題を視覚化する単一のダッシュボードを提供します。AWS アカウントのすべてのリソース、AWS CloudFormation スタックのリソース、または AWS タグによってグループ化されたリソースに対して DevOps Guru を有効にすると開始できます。手動でのセットアップや、機械学習の専門知識は必要ありません。
利点

運用上の問題を自動的に検出する
機械学習を使用して、Amazon DevOps Guru は、アプリケーションメトリクス、ログ、イベント、通常の動作パターンから逸脱した動作などのデータを自動的に収集して分析します。 このサービスは、差し迫ったリソースの枯渇、停止、メモリリーク、プロビジョニング不足のコンピューティング性能、データベース入出力 (I/O) の過剰使用を引き起こす可能性のあるコードと構成の変更など、運用上の問題とリスクを自動的に検出して警告するように設計されています。

機械学習を活用したインサイトで問題を迅速に解決する
Amazon DevOps Guru は、異常な動作と運用イベントを相互に関連付けることで、問題の根本原因を特定して解決する時間を短縮します。問題が発生すると、DevOps Guru が関連する異常のまとめと問題に関するコンテキスト情報を含むインサイトを生成するように設計されています。可能であれば、修復のための実用的なレコメンデーションを提供します。

可用性を簡単に拡張および維持する
Amazon DevOps Guru は、静的ルールとアラームを手動で更新するための時間と労力を節約するため、複雑で進化するアプリケーションを効果的に監視できます。新しい AWS サービスを移行または採用すると、DevOps Guru はそれらのメトリック、ログ、およびイベントを自動的に分析します。次に、洞察を生み出し、変化する動作や進化するシステムアーキテクチャに簡単に適応できるようにします。

ノイズとアラームの疲労を軽減する
Amazon DevOps Guru は、事前にトレーニングされた機械学習モデルを使用して関連する異常を関連付けてグループ化し、最も重要なアラートを表示することで、デベロッパーと IT 運営者がアラームのノイズを減らし、アラームによる疲労を克服できるよう支援します。DevOps Guru を使用すれば、複数のモニタリングツールとアラームを管理する必要性を減らし、問題の根本原因と修復に集中できます。
仕組み


Amazon DevOps Guru で運用上のインサイトを得る
ユースケース
運用パフォーマンスと可用性の向上
運用上の問題が発生する前に防止します。Amazon DevOps Guru は、Auto Scaling グループの制限に達するレイテンシーパターンの変更、API コール量の増加など、時間の経過とともにアプリケーションの信頼性に影響を与える、重要度が中程度および低程度の結果を表示するように設計されています。
新しいリソースやメトリクスを動的に発見
アプリケーションが進化し、サポートされる新しいリソースが追加されると、Amazon DevOps Guru は新しいメトリクスごとにパターンを学習し、運用上の問題について早期に警告するように設計されています。DevOps Guru がこうしたリソースからメトリクスを取り込み、自動的に分類するため、誤って構成されたアラームを更新または修正する必要はありません。
平均修復時間を短縮
DevOps Guru の運用上のインサイトを使用して、リソースの過剰使用や特定の SQL クエリの誤動作などのリレーショナルデータベースを含む AWS リソースの問題を迅速に診断して修正します。こうしたインサイトは、影響を受けるリソース、関連する異常についての関連情報を使用して平均修復時間 (MTTR) を削減するのに役立ち、ログや関連イベントなどのコンテキストデータを使用して問題を修正する方法に関するレコメンデーションを提供します。
プロアクティブなリソース管理
DevOps Guru を使用すると、メモリ、CPU、ディスク容量などの枯渇性リソースがプロビジョニングされた容量を超える時期を特定できます。DevOps Guru は、AWS で実行されるリソースやアプリケーションを継続的に取り込んで、分析し、ダッシュボードに低ノイズの通知を作成することで、差し迫った停止を回避するのに役立ちます。
お客様

「私たちは常に、チームが運用上の問題の解決に費やす時間を短縮する方法を探しています。現在、Amazon DevOps Guru を使用し、機械学習によるインサイトを活用して、運用上の問題を迅速に特定、関連付け、修正するのに役立てています。Amazon DevOps Guru が提供するインサイトにより、私たちのチームは、トラブルの根本的原因を突き止めようとして最初から始める必要なしに、問題をすばやく見つけることができるようになりました。私たちの IT チームは、平均修復時間を大幅に短縮し、問題の解決に費やす時間を節約しながら、お客様に可能な限り最高のエンドユーザーエクスペリエンスを提供しています。」
HCL、DevOps シニアテクニカルリード、Anchal Gupta 氏

「カスタマーエクスペリエンスと顧客満足度は私たちの最優先事項です。アラートや監視イベントの複数のソースを受信した場合、顧客に影響を与えるインシデントを特定するためにノイズをフィルタリングすることは困難で時間がかかる可能性があります。Amazon DevOps Guru を使用すると、ML によるインサイトを活用して、問題がお客様に与える影響を軽減し、多くの場合は排除するための明確なアクションパスを提供できます。Amazon DevOps Guru と PagerDuty の統合により、適切な人に適切なタイミングで迅速かつ効率的にレコメンデーションを提供するための直接的なパスが提供され、その結果、運用のダウンタイムが大幅に削減されると予想されます。」
Thomson Reuters、インフラストラクチャホスティングポートフォリオ部門ディレクター、Steve Thoennes 氏

「当社の場合、モニタリングする必要がある多数の AWS アカウントと数万のリソースがあります。Infrastructure as Code を使用し、こうしたサービスの動的アラートを作成したとしても、問題を迅速に解決するためにメトリクスを管理および相互に関連付けることは困難です。Amazon DevOps Guru を使用すると、受信するアラートや通知は、複数のサービス間で相関する機械学習を利用した正確なメトリクスであると確信できます。Amazon DevOps Guru の統合は、実装に数分しかかからず、数千の AWS CloudFormation スタックと統合するのも簡単でした。Amazon DevOps Guru は、インフラストラクチャロードマップに焦点を合わせるのに役立つインサイトを提供してくれました。」
605.tv、DevOps ディレクター、Jared Williams 氏
パートナー

「Atlassian は、お客様が Amazon DevOps Guru を使用して AIOps 戦略を実装し、クラウドアプリケーションの運用パフォーマンスを管理していることを高く評価しています。当社の新しい Opsgenie と Jira Service Management の統合により、Amazon DevOps Guru が潜在的な問題を発見するとすぐに適切なチームに通知され、機械学習を使用してインシデントの重要度に応じた優先順位が付けられます。この統合により、すべてのチームが迅速に対応し、機械学習を活用したレコメンデーションを使用して解決し、すべてのインシデントから学ぶことができます。」
Atlassian、Opsgenie 製品責任者、Emel Dogrusoz 氏

「PagerDuty は、Amazon DevOps Guru との新しい統合により、AWS とのパートナーシップをさらに深めています。PagerDuty のデジタル運用管理プラットフォームは、DevOps 文化への移行を推進できるように構築されており、この統合によりこの取り組みをさらに継続できることを嬉しく思っています。PagerDuty は、DevOps Guru の機械学習機能を活用して、共同のお客様にさらにリアルタイムの信号作用機能を提供します。PagerDuty が Amazon Simple Notification Service (SNS) を取り込むことで、AWS のお客様は、お客様に影響を与えるような停止が起こる前に、運用上の問題に対してリアルタイムのアクションを実行できます。」
PagerDuty、製品担当シニアバイスプレジデント、Jonathan Rende 氏
ブログ投稿と記事


AWS CloudFormation StackSets を使用して、複数のアカウントとリージョンにわたって Amazon DevOps Guru を簡単に設定する
2020 年 12 月
Nikunj Vaidya と Nuatu Tseggai

AWS re:Invent 2020: Amazon DevOps Guru を使用して、機械学習を活用したインサイトでアプリケーションの可用性を向上させる
2020 年 12 月
Jacob Sullivan

Amazon DevOps Guru は、優れた運用性をエンコードする事前トレーニング済みの機械学習モデルを搭載
2020 年 2 月
Caner Turkmen、Ravi Turlapati と Tim Januschowski

コードレビューの自動化
Amazon CodeGuru を活用して、コードの問題をより迅速、より早期に見つける