MLOps 用 Amazon SageMaker

高性能の本番 ML モデルを迅速かつ大規模に提供

Amazon SageMaker MLOps を利用すべき理由

Amazon SageMaker は、機械学習オペレーション (MLOps) 専用のツールを提供し、ML ライフサイクル全体でプロセスを自動化および標準化するのに役立ちます。SageMaker MLOps ツールを使用すると、ML モデルを大規模に簡単にトレーニング、テスト、トラブルシューティング、デプロイ、および管理して、本番環境でモデルのパフォーマンスを維持しながら、データサイエンティストと ML エンジニアの生産性を高めることができます。

仕組み

SageMaker MLOps の利点

効率的なモデルのワークフロー

モデル開発を加速するための反復可能なトレーニングワークフローを作成

一元的な ML ガバナンス

モデルの再現性とガバナンスのために ML アーティファクトを一元的にカタログ化

ML CI/CD の統合

ML ワークフローを CI/CD パイプラインと統合して、運用開始までの時間を短縮

継続的な品質のモニタリング

品質を維持するために、本番環境でデータとモデルを継続的に監視

機械学習開発を加速させる

標準化されたデータサイエンス環境をプロビジョニング

ML 開発環境を標準化すると、新しいプロジェクトの立ち上げ、プロジェクト間でのデータサイエンティストのローテーション、ML のベストプラクティスの実装が容易になるため、データサイエンティストの生産性が向上し、最終的にはイノベーションのペースが向上します。Amazon SageMaker Projects は、十分にテストされた最新のツールとライブラリ、ソース管理リポジトリ、ボイラープレートコード、および CI/CD パイプラインを使用して、標準化されたデータサイエンティスト環境を迅速にプロビジョニングするためのテンプレートを提供します。

SageMaker プロジェクトで MLOps を自動化するためのデベロッパーガイドを読む

SageMaker MLOps - 標準化された ML 環境をプロビジョニングする

データサイエンスチームと協力して実験を行う

ML モデルの構築は、必要なレベルの予測精度を達成するための最適なアルゴリズム、モデルアーキテクチャ、およびパラメータを求めて何百もの異なるモデルをトレーニングすることを含む反復プロセスです。こうしたトレーニングの反復全体で入力と出力を追跡して、完全マネージド型の ML 実験管理機能である Amazon SageMaker Experiments を使用して、試行の再現性とデータサイエンティスト間のコラボレーションを改善することができます。

SageMaker Experiments は、モデルトレーニングジョブに関連するパラメータ、メトリクス、データセット、およびその他のアーティファクトを追跡します。進行中のトレーニングジョブを視覚化し、同僚と実験を共有し、実験から直接モデルをデプロイできる単一のインターフェイスとなります。

Amazon SageMaker Experiments を利用して機械学習を管理する

デモを見る

ML トレーニングのワークフローを自動化

トレーニングのワークフローを自動化すると、反復可能なプロセスを作成してモデル開発ステップを調整し、迅速な実験とモデルの再トレーニングを行うことができます。Amazon SageMaker Pipelines を使用しすると、データの準備、特徴量エンジニアリング、モデルのトレーニング、モデルの調整、モデルの検証など、モデル構築ワークフロー全体を自動化できます。SageMaker パイプラインを定期的に、または特定のイベントがトリガーされたときに自動的に実行するように設定したり、必要に応じて手動で実行したりできます。

Amazon SageMaker Model Building Pipelines の詳細

稼働中のモデルを容易にデプロイ、管理

トラブルシューティングのためにモデルをすばやく再現

多くの場合、モデルの動作をトラブルシューティングし、根本原因を特定するために、実稼働環境でのモデルの再現が必要になります。これを支援するため、Amazon SageMaker はワークフローのすべてのステップをログに記録し、トレーニングデータ、構成設定、モデルパラメータ、学習勾配などのモデルアーティファクトの監査証跡を作成します。系統追跡を使用すると、モデルを再作成して潜在的な問題をデバッグできます。

Amazon SageMaker ML Lineage Tracking の詳細

モデルのバージョンを一元的に追跡および管理

ML アプリケーションの構築には、モデル、データパイプライン、トレーニングパイプライン、および検証テストの開発が含まれます。Amazon SageMaker Model Registry を使用すると、モデルのバージョン、ユースケースのグループ化などのメタデータ、モデルのパフォーマンスメトリクスベースラインを中央リポジトリで追跡でき、ビジネス要件に基づいてデプロイに適したモデルを容易に選択することができます。さらに、SageMaker Model Registry は、監査とコンプライアンスのための承認ワークフローを自動的に記録することができます。

モデルレジストリを使用したモデルの登録とデプロイの詳細

デモを見る

コードで ML インフラストラクチャを定義

一般に「infrastructure-as-code」と呼ばれる、宣言型構成ファイルによるインフラストラクチャのオーケストレーションは、ML インフラストラクチャをプロビジョニングし、CI/CD パイプラインまたはデプロイツールで指定されたとおりにソリューションアーキテクチャを実装するための一般的なアプローチです。Amazon SageMaker Projects を使用すると、事前に構築されたテンプレートファイルを使用して「infrastructure-as-code」を作成できます。

SageMaker プロジェクトを使用した MLOps の自動化の詳細

統合とデプロイ (CI/CD) ワークフローを自動化

ML 開発ワークフローは、統合およびデプロイのワークフローと統合して、本番アプリケーション用の新しいモデルを迅速に提供する必要があります。Amazon SageMaker Projects は、開発環境と本番環境の間のパリティの維持、ソースとバージョンの管理、A/B テスト、エンドツーエンドの自動化など、CI/CD プラクティスを ML にもたらします。その結果、モデルが承認されるとすぐに実稼働に移行でき、俊敏性が向上します。

さらに、Amazon SageMaker は、エンドポイントの可用性を維持し、デプロイのリスクを最小限に抑えるのに役立つ組み込みのセーフガードも提供します。SageMaker は、ブルー/グリーンデプロイなどのデプロイのベストプラクティスのセットアップとオーケストレーションを処理して可用性を最大化し、それらを自動ロールバックメカニズムなどのエンドポイント更新メカニズムと統合して、問題を早期に自動的に特定し、本番環境に大きな影響を与える前に是正措置を講じることを支援します。

SageMaker プロジェクトで CI/CD を使用したエンドツーエンドの ML ソリューションを作成する

モデルを継続的に再トレーニングして予測品質を維持

モデルが本番環境に入ると、オンコールのデータサイエンティストが問題をトラブルシューティングして再トレーニングをトリガーできるように、アラートを構成してパフォーマンスを監視する必要があります。Amazon SageMaker Model Monitor は、モデルのドリフトとコンセプトのドリフトをリアルタイムで検出し、アラートを送信することで品質を維持するのに役立ちます。これにより、すぐにアクションを実行できます。SageMaker Model Monitor は、予測の総数と比較して正しい予測の数を測定する精度など、モデルのパフォーマンス特性を常に監視しているため、異常に対処できます。SageMaker Model Monitor は SageMaker Clarify と統合されており、潜在的なバイアスの可視性を向上させます。

詳細