投稿日: Dec 22, 2020
機械学習を活用した新たな運用サービスにより、状況に応じた推奨事項を提供し、アプリケーションの可用性を向上
Atlassian、PagerDuty、SmugMug が Amazon DevOps Guru を採用
(シアトル発、2020年12月1日発表)Amazon.com, Inc.(NASDAQ: AMZN)の関連企業である Amazon Web Services, Inc.(AWS)は、「AWS re:Invent」にて、機械学習を活用したフルマネージド型運用サービスAmazon DevOps Guruを発表しました。Amazon DevOps Guru は、自動で運用上の問題点を検知し、具体的な改善アクションを提示するため、開発者がアプリケーションの可用性を容易に向上できます。Amazon DevOps Guru は、Amazon.com および AWS で長年培われたオペレーショナルエクセレンスをもとに機械学習を行い、自動でアプリケーションのメトリクス、ログ、イベント、トレースを収集、分析して、通常の運用パターンから逸脱した振る舞い(プロビジョニングされたコンピュート容量を下回っている、データベース入出力の過剰利用、メモリリークなど)を特定します。Amazon DevOps Guru が、障害やサービス中断につながるアプリケーションの異常な動作(レイテンシーの増加、エラー率、リソースの制約など)を認識すると、Amazon Simple Notification Service(SNS)やAtlassian Opsgenie、PagerDuty などのパートナーとの統合機能により、問題の詳細(関与するリソース、問題のタイムライン、関連イベントなど)とともに開発者に警告し、起こりうる問題の影響や考えられる根本原因を、改善のための具体的な推奨事項と併せて、素早く提示します。開発者は、Amazon DevOps Guru からの改善の推奨事項を活用することにより、解決までの時間短縮だけでなく、手動での設定や機械学習の専門知識がなくともアプリケーションの可用性や信頼性を向上できます。Amazon DevOps Guru の使用にあたって、初期費用や使用のコミットメントは不要で、お客様のお支払いは Amazon DevOps Guru が分析したデータ分のみとなります。詳細は、 https://aws.amazon.com/devops-guru をご覧ください。
グローバル規模で事業運営の規模を広げるため、オンプレミスでのデプロイメントのような制限のない、クラウドベースのアプリケーションやマイクロサービスアーキテクチャを展開する組織が増えています。お客様のニーズに応えるために分散構成のアプリケーションが増えるにつれ、アプリケーションの可用性を維持し、運用上の問題を検知、デバッグ、解決する時間と労力の軽減のため、開発者にはより自動化された運用が必要になっています。コードの欠陥や設定変更、不均衡なコンテナクラスタ、リソースの枯渇(CPU、メモリ、ディスク等)に起因するアプリケーションのダウンタイムイベントが生じた場合、顧客体験が損なわれ、売上の低下につながります。企業は、多額の資金と開発者の時間を費やして複数のモニタリングツールを導入していますが、そうしたツールは別々に管理されていることが多く、ロードバランサーのエラー急増やアプリケーションリクエスト率の低下などの一般的な問題に対し、カスタマイズしたアラートを開発し、維持しなければなりません。アプリケーションリソースが異常な振る舞いとしたとき、それを認識してアラートを発するための閾値は、正しく設定することが難しく、手作業で設定せざるを得ません。また、アプリケーションの使用量の変化(クリスマス商戦の時期の異常に多いリクエスト数など)に応じて、閾値は常に更新が必要です。閾値が高過ぎれば、運用パフォーマンスが深刻な影響を受けるまで、開発者はアラームを把握できません。一方で、閾値が低過ぎれば、開発者は大量の空振りのアラートを受け取ることになり、最後はそれを無視するようになります。潜在的な運用上の問題に対してアラートを受け取っていたとしても、根本原因を特定するプロセスは困難であると言えます。既存のツールを使用していても、開発者がグラフやアラームから根本原因を特定するのは容易ではなく、根本原因が見つけられたとしても、それを解決する手段がわからない場合もあります。トラブルシューティングは毎回コールドスタートで、チームは何時間、あるいは何日も問題の特定に費やさなければなりません。これは時間のかかる煩雑な作業であり、運用障害の解決を遅らせ、アプリケーションの中断が長引く原因となります。
Amazon DevOps Guru の機械学習モデルは、過去 20 年以上、Amazon.com 向けに可用性の高いアプリケーションを構築、拡張、維持してきた運用上の知見に基づき構築されました。Amazon DevOps Guru は、自動で運用上の問題(アラームの欠落や誤った設定、リソース枯渇の早期警告、機能停止につながりかねない設定変更など)を検知し、関連するリソースやイベントにコンテクストを与え、改善アクションを推奨するため、機械学習の専門知識や経験は不要です。Amazon DevOps Guru のコンソール上で数回クリックするだけで、レイテンシー、エラー率、全てのリソースに対するリクエスト率など、アプリケーションやインフラストラクチャのメトリクスの履歴が自動的に取り込まれ、正常な動作境界の確立にむけた分析が行われるほか、あらかじめ訓練済みの機械学習モデルを活用し、確立したベースラインからの逸脱を特定します。Amazon DevOps Guru がシステムとアプリケーションのデータを分析し自動で異常を検知すると、異常なメトリクス、アプリケーションの振る舞いの時系列での可視化、改善アクションの推奨などを、運用上のインサイトとしてデータをグループ化します。また、関連するアプリケーションとインフラストラクチャのメトリクス(ウェブアプリケーションのレイテンシーの急増、ディスクスペースの不足、不良コードのデプロイメント、メモリリークなど)を相互に関連付けてグループ化し、重複するアラームを減らすことで、重要度の高い問題を抱えるユーザーのサポートに集中できます。お客様は、構成変更の履歴やデプロイメントイベントをシステムやユーザーのアクティビティとともに確認でき、Amazon DevOps Guru コンソール上で、運用上の問題に対して考えられる原因に優先順位をつけてリスト化できます。修復のステップとともにインテリジェントな推奨事項を提供するだけでなく、Runbook やコラボレーションツール用の AWS Systems Manager と統合し、アプリケーションのより効率的なメンテナンスと、デプロイメントのためのインフラ管理により、お客様の迅速な問題解決を支援します。Amazon CodeGuru(コードの品質を向上し、アプリケーションの最もコストがかかっているコード行を特定するためのインテリジェントな推奨事項を提供する、機械学習を活用した開発者ツール)とともに Amazon DevOps Guru は運用データにおける機械学習による自動化のメリットを提供することで、開発者はより簡単にアプリケーションの可用性や信頼性を向上できます。
AWS の機械学習担当バイスプレジデント、スワミ・シバスブラマニアン(Swami Sivasubramanian)は次のように述べています。「今までお客様から、アプリケーションの可用性向上に関する専門知識や Amazon.com を運営する上で培った長年の運用経験から学んだオペレーショナルエクセレンスを活かせる分野へのサービス追加に関するご要望をいただいてきました。今回の Amazon DevOps Guru で、当社はそのような経験を取り込み、特別な機械学習モデルを構築し、お客様による運用上の問題点の検知、トラブルシューティング、予防を支援し、問題発生時にはインテリジェントな推奨事項を提供します。Amazon.com の運営から Amazon が学んだベストプラクティスのメリットをお客様のチームが活かすことで、複数の監視システムを構成して管理するために費やす時間と労力を節約することができます。」
お客様は、AWS マネジメントコンソールを数クリックするだけで Amazon DevOps Guru を有効化し、数分でアカウントやアプリケーションアクティビティの分析を開始して運用上のインサイトが得ることができます。Amazon DevOps Guru は、さまざまなソース(AWS CloudTrail、Amazon CloudWatch、AWS Config、AWS CloudFormation、AWS X-Rayなど)からの関連データを集約し、一つのコンソール上に運用データを可視化するため、複数のツールを切り替える必要性を低減します。また、Amazon DevOps Guru コンソールでは、相関性のある運用上のイベントやコンテクストデータを運用上のインサイトとして確認できるほか、Amazon SNS からアラートを受け取ることができます。さらに、Amazon DevOps GuruはAWS SDK を通じて API エンドポイントをサポートしており、パートナーやお客様が、既存のチケット発行、呼び出し、重要度の高い問題に対してエンジニアに自動で通知するなどのソリューションへ Amazon DevOps Guru を簡単に統合できます。PagerDuty や Atlassianなどのパートナーは、すでに運用監視やインシデント管理プラットフォームに Amazon DevOps Guru を統合しており、この 2 社のソリューションをお使いのお客様も Amazon DevOps Guru が提供する運用上のインサイトのメリットをすぐに享受できるようなります。Amazon DevOps Guru のプレビュー版は、米国東部(バージニア州北部)、米国東部(オハイオ州)、米国西部(オレゴン州)、アジアパシフィック(東京)および欧州(アイルランド)で利用可能で、今後さらに提供地域を拡大する予定です。
Atlassian の製品はチームワーク向上を目的に 170,000 社以上で導入され、業務を調整、議論し、完了するために活用されています。同社 Opsgenie 製品担当責任者であるエメル・ドグルゾス(Emel Dogrusoz)氏は次のように述べています。「Atlassian は Amazon DevOps Guru の開始にあたり、AWS と連携し、お客様が自信を持ってコードのデプロイやサービス運用を進められるよう支援できることを誇りに思います。Opsgenie と Jira Service Managementとの新たな統合により、Amazon DevOps Guru が潜在的な問題を予測、またはインシデントの発生が検知された場合は、適切なチームがすぐに通知を受けることができます。Amazon DevOps Guru は新次元のインサイトを提供し、Atlassian は最速の対応をお客様に提供します。」
PagerDuty, Inc. は、デジタル業務管理のリーディングカンパニーです。PagerDuty の製品担当シニアバイスプレジデントであるジョナサン・レンデ(Jonathan Rende)氏は、次のように述べています。「PagerDuty は、インシデント対応のライフサイクル全体を自動化によって解決することで、DevOpsへの移行を促進できるよう作られました。当社は今回の Amazon DevOps Guru との機能統合により、DevOps への移行促進に引き続き貢献できることを嬉しく思います。Amazon の数十年にわたる卓越した運用能力と Amazon DevOps Guru の機械学習機能の活用により、PagerDuty は、両社のお客様によりリアルタイムに対応したシグナル・ツー・アクション機能を提供します。PagerDuty の Amazon DevOps Guru の Amazon SNS との連携により、AWS のお客様は、運用上の問題が顧客に影響を与えるような事態となる前に、リアルタイムにアクションを起こすことが可能です。」
トムソン・ロイターは、ビジネスに役立つ答えを提供し、プロフェッショナルの意思決定と事業運営を支援する世界で最も信頼されるプロバイダです。トムソン・ロイターのインフラストラクチャ ホスティング ポートフォリオ担当ディレクターであるスティーブ・テネス(Steve Thoennes)氏は次のように述べています。「当社にとって顧客体験は極めて重要です。お客様に影響を与えるインシデントを防止し、影響を軽減するには、可用性、パフォーマンス、変更依頼に関する複数ソースからのアラートの処理は大きな課題です。Amazon DevOps Guru により、その機械学習のインサイトを活用することで、問題を迅速に修復し、お客様に影響を与える事象を回避する明確なアクションの道筋を提供してもらえることを大変喜ばしく思います。推奨事項を適切な担当者へタイムリーかつ効率的に届けることができる PagerDuty との統合も嬉しい知らせです。」