投稿日: Dec 8, 2020
エンドツーエンドの機械学習ワークフローを構築、管理、自動化、拡張する Amazon SageMaker の新機能である Amazon SageMaker Pipelines を公開いたします。SageMaker Pipelines は、ML ワークフローに自動化とオーケストレーションをもたらし、機械学習プロジェクトを加速して、本番環境で数千個のモデルにスケールアップできるようにします。
機械学習は反復的なプロセスであるため、データエンジニア、データサイエンティスト、ML エンジニア、DevOps エンジニアなどのさまざまな利害関係者間のコラボレーションが必要となります。データの準備、機能エンジニアリング、トレーニング、モデル評価のステップ数が多くなり、データ依存関係の管理が複雑になる可能性があるため、モデルを構築するためのスケーラブルなプロセスを構築することは困難です。モデルの数が増えるにつれ、モデルのバージョンを管理して本番環境にデプロイするには、簡単でスケーラブルな方法で自動化を行う必要があります。最後に、エンドツーエンドのパイプライン全体で系統を追跡するには、データとモデルのアーティファクトとアクションを追跡するためのカスタムツールが必要です。
Amazon SageMaker Pipelines を使用すれば、データサイエンスチームとエンジニアリングチームが ML プロジェクトでシームレスに連携し、エンドツーエンドの ML ワークフローの構築、自動化、スケーリングを合理化できます。Amazon SageMaker SDK を使用すると、Amazon SageMaker Data Wrangler、処理、トレーニング、バッチ変換、条件付き評価、中央モデルレジストリへのモデルの登録などのパラメータとステップを定義することで、モデル構築パイプラインを簡単に構築できます。パイプラインが構築されると、Amazon SageMaker がパイプラインの実行を処理し、Amazon SageMaker Studio でパイプラインを実行し、各ステップのリアルタイムでのメトリックとログを表示できます。モデルは新しい Amazon SageMaker モデルレジストリに登録されます。このレジストリは、パイプラインから生成された新しいモデルを自動的にバージョン管理し、本番環境にデプロイするモデルを選択するための組み込みの承認ワークフローを提供します。
Amazon SageMaker Pipelines は、機械学習 (別名 MLOps) に適用される継続的インテグレーションと継続的デリバリー (CI/CD) の DevOps ベストプラクティスを提供して、ML モデルの構築とデプロイのパイプラインを自動化およびスケーリングします。Amazon SageMaker Pipelines は、組み込みの MLOps テンプレートを提供するため、ML プロジェクトの CI/CD を開始でき、カスタム MLOps テンプレートを使用する機能も提供します。その結果、手動プロセスに依存することなく ML パイプラインを迅速かつ簡単にスケーリングし、コードの一貫性、統合と単体テスト、および本番環境での信頼性の高いモデル更新をより確実に行うことができます。最後に、Amazon SageMaker Pipelines は、ML パイプラインの各ステップの系統を自動的に追跡します。これは、カスタムツールを構築することなく、ガバナンスと監査の要件に役立てられる可能性があります。
Amazon SageMaker Pipelines は、Amazon SageMaker が利用可能なすべての商用 AWS リージョンで一般的に利用可能になりました。Amazon SageMaker パイプラインの MLOps 機能は、AWS CodePipeline も利用可能な AWS リージョンでのみ利用可能になりました。詳細とサンプルノートについては、ドキュメントをお読みください。この機能の使用方法については、ブログ記事をご覧ください。