Amazon Web Services ブログ

Amazon Lookout for Metrics が一般提供開始となり、東京リージョンでお使いいただけます

みなさん、こんにちは。アマゾン ウェブ サービス ジャパン、シニアエバンジェリストの亀田です。

2020年12月、AWS re:Invent でアナウンスされた、Amazon Lookout for Metricsが一般提供開始となり、東京リージョンでご利用いただける用になったのでお知らせいたします。

Amazon Lookout for Metrics

Lookout for Metrics は与えられたデータの各メトリクスの異常を自動的に検出し、その根本原因を特定することを可能とするサービスです。機械学習 (ML) を使用して、例えば、売上高や顧客獲得率の急激な低下など、ビジネスおよび運用の時系列データの異常 (標準からの外れ値など) を自動的に検出および診断します。複雑な要因が絡み合ったデータの場合、異常であると特定できても、何が異常を引き起こしているかの関係性を見出すことが難しく、時には複数の項目が相関を持ち異常を引き起こしている可能性があります。

Lookout for Metrics を用いると、数回クリックするだけで、Amazon S3Amazon RedshiftAmazon Relational Database Service (RDS) などのAWSが提供する一般的なデータストアや、Amazon CloudWatch の運用データ、Salesforce、ServiceNow、Zendesk、および Marketo などのサードパーティーの SaaS アプリケーションに接続することができ、ビジネスにとって重要なメトリクスの監視を開始します。

また、検出された異常に関するフィードバック機能を用いることで、結果を調整し、時間の経過とともに精度を向上させていくこともできます。同じイベントに関連する異常をグループ化し、潜在的な根本原因の概要を含むアラートを送信することで、検出された異常を簡単に診断でき、また、異常を重大度の順にランク付けするため、調査の効率を上げることも可能です。

アラートをカスタマイズすることも可能で、Amazon Simple Notification Service (Amazon SNS)AWS Lambda 関数 等のAWSサービスや、Datadog、PagerDuty、Webhook、Slack など、サポートされている出力コネクタを使用してアラートを出力することが可能であり、ビジネスのデータだけではなく、例えばシステム運用関連のログなどを用いることで、可観測性を高めるような利用方法も可能です。さらに、同時に発生する異常を論理グループとして、グループ化し、個別のアラートではなく、異常グループに対して単一のアラートを送信するなどの手法を取ることが可能となっています。

How it works

Lookout for Metrics の利用はまず検出器 (detector) を作成するフェーズから始めます。データソースと連携させることで、検出器はデータセットを認識し、そして監視を開始します。機械学習(ML)を使用して、ビジネスデータのパターンを見つけ、データの予想される変動と正当な異常を区別するようになります。この際以下の選択肢の中から学習させるデータに対する適切な時間間隔を設定します。

データセットは複数のメトリックスを持つ時系列データの集合体といえます。このメトリックスは、検出器が異常を監視する主要な項目として用いられます。その中の一つのメトリックを”measure”として設定します。これは検出器が異常を検出する主なメトリックとして使用されます。さらに、最大5つの追加メトリックスを”dimensions”として設定可能です。これは検出器がセグメントごとの異常を判断する際や、お互いの要因の相関を導き出すのに用いられます。例えば、仮にグローバルに展開しているシステムの稼働状況をデータセットとして用いる場合、稼働状況や稼働率を数値で表すメトリックをmeasureとして設定し、さらにシステムが稼働している国がわかるメトリックをディメンションとして設定することで、国毎のシステムの稼働状況を把握することができるようになります。

検出器はデータセットが設定された後、上記で設定した時間間隔でライブデータを監視&収集しながら自動で学習が開始されますが、監視対象のビジネスやシステムが出力する過去のデータをお持ちの場合、”historical data”として投入することで検出器の学習期間を早めることができます。勿論この際、過去のデータと現在のデータに大きな差がないことが前提になります。過去の正常状態と現在の正常状態が異なる可能性がある場合は、ライブデータの監視&収集作業を待ってください。

異常が発見された場合、以下のようなインターフェースを用いて、閾値などを調整していくことが可能です。この作業を繰り返すことで、より利用に即した判断が行われるようになっていきます。

異常は以下のように相関するメトリックスを伴って出力されます。この場合、イタリア、とフランスのマーケットプレースにおいて、PCからのアクセスの差異を調査すればいいことがわかりますが、優先度として先にイタリアからのアクセスのケースを分析すべきということが判断可能です。

さらに以下のような、重大度 (Severity Score)や異常検知の日時も併せて出力されますので、調査の優先度や調査すべきログの時間帯などを絞り込むことが可能です。

Amazon AppFlowとの連携

AppFlowはコードなしでサードパーティーのアプリケーションと AWS のサービスを安全に統合し、データフローを自動化するサービスです。このサービスとの連携がLookout for Metrics ではサポートされているため、以下のサービスへの異常アラート連携が簡単に設定可能です。

  • Salesforce
  • Marketo
  • Dynatrace
  • Singular
  • Zendesk
  • ServiceNow
  • Infor Nexus
  • Trendmicro
  • Veeva
  • Google Analytics
  • Amplitude

Lookout for Metrics の詳細はこちらをご覧ください。

– シニアエバンジェリスト 亀田