【開催報告 & 資料公開】AWS re:Invent Recap AI/ML

アマゾンウェブサービスジャパン株式会社機械学習ソリューションアーキテクトの藤川です。『AWS re:Invent』は、世界中の AWS ユーザーが集まり、ベストプラクティスや最新情報を学ぶための年次カンファレンスです。この会期中に発表された AI/ML 関連のアップデートをご紹介する AWS re:Invent Recap AI/ML シリーズが 2021年1月19日に開催されました。2020年の re:Invent では初めて Machine Learning 専用の Keynote が行われました。 AWS re:Invent Recap AI/ML シリーズでは主にこの Keynote で話された内容を以下の 4 つのセッションに分けてご紹介しました。

AWS AI サービス概要と製造業向け AI サービスの紹介
AWS ML サービス Amazon SageMaker がより簡易に
AWS が実現する MLOps のためのツール群のご紹介
ML の学習とデプロイを効率化する新機能のご紹介

「AWS AIサービス概要と製造業向けAIサービスの紹介」 [Slides]

アマゾンウェブサービスジャパン株式会社
機械学習ソリューションアーキテクト卜部達也

本セッションでは、新しくリリースされた AI サービスの中から以下の 5 つのサービスについてお話しました。

Amazon Monitron
エンドツーエンドの機械モニタリングソリューション。異常な機器の状態を検出。
Amazon Lookout for Equipment
既存の機器センサーに AWS 機械学習モデルを使用して、異常な機器の動作を検出。
AWS Panorama
既存のカメラを活用し、コンピュータビジョンを使用して品質管理と職場の安全性を向上。
Amazon Lookout for Vision
画像とビデオストリームで使用して、製品やプロセスの異常や欠陥を検出。
Amazon Lookout for Metrics
ビジネス上のメトリクスにおける異常値を検知。

これらの AI サービスには、異常検知や品質管理に関する機能が充実しています。特にセンサデータや画像データを使い機器の異常を検知するなど、製造業で有効活用頂けるようなユースケースをカバーしています。以下でそれぞれのサービスについて簡単にご紹介します。

Amazon Monitron

Amazon Monitron は、振動や温度を捉える IoT センサ、データ集約・転送を担うゲートウェイ、データを処理するクラウドサービス等が含まれたサービスです。機械学習を使い産業機械の異常な動作を検知することができます。これにより、予知保全を行い、計画外の停止時間の削減を行うといったことを実現いただけます。
使い方は、まず Monitron センサを対象となる産業機器に面を接する形で設置します。Monitron センサは「振動データ」と「温度データ」を取得することができ、そのデータは Monitron ゲートウェイに送信されます。そして、Monitron ゲートウェイが AWS にデータを送信し、AWS 上でデータが処理されます。異常が検知された時にはアラートを通知したり、Amazon Monitron モバイルアプリを使って異常をモニタリングすることもできます。
Amazon Monitron を使うことで、機械学習や開発の経験がなくても、Amazon の配送センターで機器を監視するのと同じテクノロジーを活用して予知保全を実現いただけます。

Amazon Lookout for Equipment

Amazon Lookout for Equipment も Amazon Monitron と同様に、機械学習を使って機器の異常な動作を検知することができるサービスです。違いとしては、Amazon Lookout for Equipment では既にお客様はセンサをお持ちであることを想定しており、既存のセンサデータを使ってお客様のカスタムモデルを構築する仕組みになっている点が挙げられます。Amazon Lookout for Equipment は、センサおよびデータ収集インフラストラクチャに既に投資しているお客様に適したサービスです。

AWS Panorama

AWS Panorama は、お客様がお持ちの監視カメラなどの既存の IP カメラを活用して低遅延での画像認識を実現できるアプライアンスとソフトウェア開発キット (SDK) です。ユースケースとしては、生産現場での品質管理や安全性の向上が挙げられます。たとえば製造ラインでの外観検査や、物流倉庫の安全確認などにお使いいただけます。
ハードウェアである Panorama アプライアンスに対して既存の IP カメラなどを接続してお使いいただけます。この Panorama アプライアンス上に機械学習のモデルをデプロイし、エッジ推論を行います。機械学習のモデルは SageMaker で学習したものや、既存の学習済みモデルをお使いいただけます。
具体的にどのようなことが実現できるのかご確認いただけるサンプルコードがございます。サンプルとしては、転倒の検知、ソーシャルディスタンスの検知、手洗い時間の計測、喫煙検知などがあります。

Amazon Lookout for Vision

Amazon Lookout for Vision は画像の異常検知を行えるサービスです。製品の外観検査を低コストで導入し、これまで手動で行ってきた品質検査プロセスの自動化が可能になります。たとえば、凹み、亀裂、気泡や溶接の欠陥など、部品の損傷や欠陥を検出することができます。
Amazon Lookout for Vision を使うことで、モデルの構築だけでなく、モデルの再学習やダッシュボードでの検査状況のモニタリングまで行えます。また、実際に異常なのかそうでないのかのフィードバックを人間が行えるようになっており、そのフィードバックを使って継続的にモデルの精度を高めていくことができます。

Amazon Lookout for Metrics

Amazon Lookout for Metrics は、たとえば、収益パフォーマンス、購入トランザクション、顧客獲得率や定着率など、さまざまな時系列のビジネス上または運用上のメトリクスにおける異常を検出することができるサービスです。
AWS サービスやサードパーティー SaaS アプリケーションなど、さまざまなデータソースと連携することができ、例としては、Amazon Simple Storage Service (Amazon S3)、Amazon Redshift、Amazon Relational Database Service (Amazon RDS)、Amazon CloudWatch、Marketo、Dynatrace、Singular、Zendesk、Servicenow、Infor Nexus、Trendmicro、Veeva、Google Analytics、および Amplitude などがあります。
関連する異常をグループ化したり、重大度順にランキングを作成する機能があり、問題の原因の特定に繋げることができます。また、重大な異常を通知するカスタムアラートを作成することや、検出された異常が本当に異常だったのかのフィードバックによる継続的な精度改善を行うことができます。

「AWS ML サービス Amazon SageMaker がより簡易に」 [Slides]

アマゾンウェブサービスジャパン株式会社
機械学習ソリューションアーキテクト伊藤芳幸

機械学習のワークフローは、データの準備・前処理、モデルの構築、学習、デプロイ・管理といったさまざまなステップを含む複雑なものです。Amazon SageMaker は、機械学習のワークフロー全体を効率化するマネージドサービスです。本セッションでは、Amazon SageMaker 全体像のアップデートと、その中でも、より簡単にお使いいただけるようなサービスのアップデート、特に SageMaker JumpStart についてご紹介しました。

今回発表された SageMaker JumpStart のコンセプトは、機械学習のアプリケーションをできるだけ簡単、迅速に活用し始めていただくことであり、大きく 2 つのメニューがあります。1 つ目はソリューションと呼ばれるもので、需要予測、不正検知、予知保全などの 15 以上の一般的な ML ユースケースに対し、カスタマイズできるソリューションが提供されています。よくあるユースケースについては、データセット、AWS CloudFormation テンプレートなどが提供されています。2 つ目が事前に学習済みのモデルを利用できるメニューで、ワンクリックで学習済みモデルをデプロイしたりファインチューニングすることができます。対象としては、画像処理とテキスト処理となっており、PyTorch Hub とTensorFlow Hub の 150 以上の事前学習済みのオープンソースモデルを利用することができます。

「AWS が実現する MLOps のためのツール群のご紹介」 [Slides]

アマゾンウェブサービスジャパン株式会社
機械学習ソリューションアーキテクト呉和仁

本セッションでは、特に MLOps に関連するサービスをご紹介しました。前半では ML パイプラインに関するサービス、具体的には、Amazon SageMaker Pipelines、Amazon Managed Workflows for Apache Airflow (MWAA)、 AWS Step Functions とそれらの使い分けについて、後半ではその他今回発表されたサービスとして、Amazon SageMaker Data Wrangler、Amazon SageMaker Feature Store、Amazon SageMaker Clarify についてご紹介しました。

前半の ML パイプラインに関するサービスでは、まず今回発表された Amazon SageMaker Pipelines についてその概要や機能、使い方をご紹介しました。Amazon SageMaker Pipelines は、機械学習ワークロードの CI/CD を実現するサービスです。機械学習のアプリケーションを開発し運用していく場合、モデルは一度作って終わりとなることは多くないかと思います。新しいデータが手に入るたびにモデルを継続的に改善したり、あるいはデータやモデルの変更をテストして自動で本番環境にリリースできる状態にしたり、さらにデプロイ後もモデルの性能などを継続的に監視して適宜再学習をしたりといったように、継続的に改善しながらサービスを提供していく必要が出てきます。 SageMaker Pipelines を使うことで、バグや問題点を素早く発見したり、改善に伴う変更を自動でリリースしたりでき、その結果、素早く問題に対処して改良を行ったり大規模にスケールさせることが可能になります。SageMaker Pipelines では Python のインターフェイスでパイプラインを作成し、AWS が事前に用意した CI/CD テンプレートを使用して一連のプロセスを自動化し、さらに SageMaker Studio を使用してパイプラインを監視することができます。具体的な機能としては、たとえば、カスタムのスケジュールを設定してワークフローを定期的に再実行したり、モデルを学習した後は、そのモデルをモデルレジストリに集約し、モデルのバージョンを追跡することができます。

その後、ML パイプラインに関する他のサービスとして Amazon Managed Workflows for Apache Airflow と AWS Step Functions についてもご紹介し、Amazon SageMaker Pipelines と使い分けるにあたっての観点をご紹介しました。

後半では、機械学習のデータをできるだけ簡単に迅速に用意するためのサービスとして Amazon SageMaker Data Wrangler、特徴量を効率的に扱うためのサービスとして Amazon SageMaker Feature Store、機械学習のさまざまなプロセス上でバイアスを検出したり説明を行うためのサービスとして Amazon SageMaker Clarify についてご紹介しました。

「ML の学習とデプロイを効率化する新機能のご紹介」 [Slides]

アマゾンウェブサービスジャパン株式会社
機械学習ソリューションアーキテクト大渕麻莉

本セッションでは、ML の学習とデプロイを効率化するサービスとして以下の 5 つに関するアップデートをご紹介しました。

Amazon SageMaker Debugger
学習スクリプトの変更なしに、学習状況のモニタリングを行う。
Amazon SageMaker Model Monitor
デプロイ後のモデルの性能監視を行う。
Amazon SageMaker Distributed Training
最小限のコード変更で、2種類の並列方法でモデルの学習を高速化する。
Amazon SageMaker Edge Manager
エッジデバイス推論とモデルの管理を行う。
AWS Trainium / Amazon EC2 Instances Powered by Habana Gaudi
モデルの学習に特化したインスタンス

Amazon SageMaker Debugger では、新しくプロファイラーの機能が追加されました。学習スクリプトを変更することなく、学習状況のモニタリングを行うことができます。CPU、GPU、ネットワーク I/O、ストレージ I/O、RAM、GPURAM、データ読み込み時間などインフラやモデルに関するメトリクスを自動的に収集し可視化できます。これにより、GPU の使用率が低いなどのボトルネックを特定してトラブルシューティングを行うことが可能です。また、SageMaker Studio 上でボトルネックに関するインサイトを表示したり、推奨事項を確認することもできます。この推奨を参考に適切な対応を行うことで、時間短縮やコスト削減に繋げることが可能になります。これらをレポートとして出力することもできます。

Amazon SageMaker Model Monitor では、デプロイしたモデルの予測性能を評価してレポートする機能が追加されました。正解データを S3 に保存しておくことで、予測の値との比較、評価を行います。大きく 3 つ機能があります。1 つ目は、モデルの品質監視機能であり、適合率や正解率、再現率などをリアルタイムに監視し、レポートとグラフで可視化するものです。2 つ目は、バイアスの監視機能であり、SageMaker Clarify を使って、予測ラベルなどのメトリクスのバイアスがしきい値を超えないか監視し、しきい値を超過した際にアラートを出すことができます。3 つ目がモデルの説明可能性の監視機能であり、これもSageMaker Clarify を使って、特徴量の重要度に変化がないかなどを監視することが出来ます。

Amazon SageMaker Distributed Training では、コード変更を最小限に抑えながら、データ並列とモデル並列の 2 つの方法で分散学習を行うことが可能となりました。データ並列とモデル並列の分散学習処理では、それぞれ SageMakerのDistributed Data Parallel Library、Distributed Model Parallel Library をインポートして並列処理を有効化した上で学習ジョブを実行します。データ並列においては TensorFlow における Horovod や PyTorch における DistributedDataParallel などの一般的な API をサポートしています。

その他、エッジデバイスに対する機械学習モデルの最適化や管理運用を可能にするサービスである Amazon SageMaker Edge Manager、モデルの学習に特化したインスタンスに関して、AWS Trainium と Amazon EC2 Instances Powered by Habana Gaudi についてもご紹介しました。AWS Trainium は、AWS 独自開発のコスト効率の高い学習専用のカスタムチップです。AWS Deep Learning AMI、Amazon EKS、Amazon ECS、Amazon SageMaker、AWS Batch で利用いただけます。Amazon EC2 Instances Powered by Habana Gaudi は、深層学習モデルの学習用に特別設計された、Habana Labs の Gaudi アクセラレータを搭載した Amazon EC2 インスタンスです。AWS Deep Learning AMI、Amazon EKS、Amazon ECS、Amazon SageMaker で利用いただけます。

まとめ

AWS re:Invent Recap AI/ML シリーズでは、2020 年の AWS re:Invent で発表された AI/ML 関連のアップデートを 4 つのセッションに分けてご紹介しました。詳細については、登壇スライドや動画も合わせてご確認下さい。

Amazon Web Services ブログ