Amazon SageMaker MLOps を利用すべき理由
Amazon SageMaker は、機械学習オペレーション (MLOps) 専用のツールを提供し、ML ライフサイクル全体でプロセスを自動化および標準化するのに役立ちます。SageMaker MLOps ツールを使用すると、ML モデルを大規模に簡単にトレーニング、テスト、トラブルシューティング、デプロイ、および管理して、本番環境でモデルのパフォーマンスを維持しながら、データサイエンティストと ML エンジニアの生産性を高めることができます。
仕組み
SageMaker MLOps の利点
機械学習開発を加速させる
標準化されたデータサイエンス環境をプロビジョニング
ML 開発環境を標準化すると、新しいプロジェクトの立ち上げ、プロジェクト間でのデータサイエンティストのローテーション、ML のベストプラクティスの実装が容易になるため、データサイエンティストの生産性が向上し、最終的にはイノベーションのペースが向上します。Amazon SageMaker Projects は、十分にテストされた最新のツールとライブラリ、ソース管理リポジトリ、ボイラープレート コード、および CI/CD パイプラインを使用して、標準化されたデータサイエンティスト環境を迅速にプロビジョニングするためのテンプレートを提供します。
データサイエンスチームと協力して実験を行う
ML モデルの構築は、必要なレベルの予測精度を達成するための最適なアルゴリズム、モデルアーキテクチャ、およびパラメータを求めて何百もの異なるモデルをトレーニングすることを含む反復プロセスです。こうしたトレーニングの反復全体で入力と出力を追跡して、完全マネージド型の ML 実験管理機能である Amazon SageMaker Experiments を使用して、試行の再現性とデータサイエンティスト間のコラボレーションを改善することができます。
SageMaker Experiments は、モデルトレーニングジョブに関連するパラメータ、メトリクス、データセット、およびその他のアーティファクトを追跡します。進行中のトレーニングジョブを視覚化し、同僚と実験を共有し、実験から直接モデルをデプロイできる単一のインターフェイスとなります。
ML トレーニングのワークフローを自動化
トレーニングのワークフローを自動化すると、反復可能なプロセスを作成してモデル開発ステップを調整し、迅速な実験とモデルの再トレーニングを行うことができます。Amazon SageMaker Pipelines を使用しすると、データの準備、特徴量エンジニアリング、モデルのトレーニング、モデルの調整、モデルの検証など、モデル構築ワークフロー全体を自動化できます。SageMaker パイプラインを定期的に、または特定のイベントがトリガーされたときに自動的に実行するように設定したり、必要に応じて手動で実行したりできます。
稼働中のモデルを容易にデプロイ、管理
トラブルシューティングのためにモデルをすばやく再現
多くの場合、モデルの動作をトラブルシューティングし、根本原因を特定するために、実稼働環境でのモデルの再現が必要になります。これを支援するため、Amazon SageMaker はワークフローのすべてのステップをログに記録し、トレーニングデータ、構成設定、モデルパラメータ、学習勾配などのモデルアーティファクトの監査証跡を作成します。系統追跡を使用すると、モデルを再作成して潜在的な問題をデバッグできます。
モデルのバージョンを一元的に追跡および管理
ML アプリケーションの構築には、モデル、データ パイプライン、トレーニングパイプライン、および検証テストの開発が含まれます。Amazon SageMaker Model Registry を使用すると、モデルのバージョン、ユースケースのグループ化などのメタデータ、モデルのパフォーマンスメトリクスベースラインを中央リポジトリで追跡でき、ビジネス要件に基づいてデプロイに適したモデルを容易に選択することができます。さらに、SageMaker Model Registry は、監査とコンプライアンスのための承認ワークフローを自動的に記録することができます。
コードで ML インフラストラクチャを定義
一般に「infrastructure-as-code」と呼ばれる、宣言型構成ファイルによるインフラストラクチャのオーケストレーションは、ML インフラストラクチャをプロビジョニングし、CI/CD パイプラインまたはデプロイツールで指定されたとおりにソリューションアーキテクチャを実装するための一般的なアプローチです。Amazon SageMaker Projects を使用すると、事前に構築されたテンプレートファイルを使用して「infrastructure-as-code」を作成できます。
統合とデプロイ (CI/CD) ワークフローを自動化
ML 開発ワークフローは、統合およびデプロイのワークフローと統合して、本番アプリケーション用の新しいモデルを迅速に提供する必要があります。Amazon SageMaker Projects は、開発環境と本番環境の間のパリティの維持、ソースとバージョンの管理、A/B テスト、エンドツーエンドの自動化など、CI/CD プラクティスを ML にもたらします。その結果、モデルが承認されるとすぐに実稼働に移行でき、俊敏性が向上します。
さらに、Amazon SageMaker は、エンドポイントの可用性を維持し、デプロイのリスクを最小限に抑えるのに役立つ組み込みのセーフガードも提供します。SageMaker は、ブルー/グリーンデプロイなどのデプロイのベストプラクティスのセットアップとオーケストレーションを処理して可用性を最大化し、それらを自動ロールバックメカニズムなどのエンドポイント更新メカニズムと統合して、問題を早期に自動的に特定し、本番環境に大きな影響を与える前に是正措置を講じることを支援します。
モデルを継続的に再トレーニングして予測品質を維持
モデルが本番環境に入ると、オンコールのデータサイエンティストが問題をトラブルシューティングして再トレーニングをトリガーできるように、アラートを構成してパフォーマンスを監視する必要があります。Amazon SageMaker Model Monitor は、モデルのドリフトとコンセプトのドリフトをリアルタイムで検出し、アラートを送信することで品質を維持するのに役立ちます。これにより、すぐにアクションを実行できます。SageMaker Model Monitor は、予測の総数と比較して正しい予測の数を測定する精度など、モデルのパフォーマンス特性を常に監視しているため、異常に対処できます。SageMaker Model Monitor は SageMaker Clarify と統合されており、潜在的なバイアスの可視性を向上させます。
パフォーマンスとコストのためにモデルのデプロイを最適化
Amazon SageMaker を使用すると、あらゆるユースケースで高性能かつ低コストで推論用の ML モデルを簡単にデプロイできます。すべての ML 推論のニーズを満たせるので、幅広い ML インフラストラクチャとモデルデプロイオプションを提供できます。