投稿日: Dec 1, 2019
Amazon SageMaker Operators for Kubernetes により、Kubernetes を使用する開発者およびデータサイエンティストは、Amazon SageMaker で機械学習 (ML) モデルのトレーニング、調整、およびデプロイを簡単に行えます。
お客様は、汎用コンテナオーケストレーションシステムである Kubernetes を使用して、反復可能なパイプラインをセットアップし、ワークロードを継続的にコントロールし、ポータビリティを維持することができます。しかし、ML ワークロードを Kubernetes で実行する場合、お客様は基礎となる ML インフラストラクチャを管理および最適化し、高可用性と信頼性を確保する必要があります。さらに、ML ツールを提供してデータサイエンティストの生産性を高め、適切なセキュリティと規制要件に準拠する必要があります。Amazon SageMaker Operators for Kubernetes により、お客様は Kubernetes API または kubectl などの Kubernetes ツールを使用して SageMaker を呼び出し、SageMaker で ML ジョブを作成および操作できます。これにより、Kubernetes のお客様は、Kubernetes と EKS の移植性と標準化の利点に加えて、Amazon SageMaker のフルマネージド ML サービスの利点を得ることができます。
お客様は、Amazon SageMaker Operators を使用して、モデルトレーニング、モデルハイパーパラメータの最適化、リアルタイム推論、バッチ推論を行うことができます。モデルトレーニングでは、Kubernetes のお客様は、SageMaker のフルマネージド ML モデルトレーニングのすべての利点を活用できるようになり、マネージドスポットトレーニングもご利用いただけます。これにより、最大 90% のコストを節約できます。さらに、複数のGPUノードにスケーリングしてトレーニング時間を短縮する分散トレーニングもご利用いただけます。コンピューティングリソースは、要求時にのみプロビジョニングされ、必要に応じてスケーリングされ、ジョブが完了すると自動的にシャットダウンされます。これで、ほぼ 100% の使用率を確保します。ハイパーパラメータチューニングでは、お客様は SageMaker の自動モデルチューニングを使用して、データサイエンティストの時間を数日または数週間も節約し、モデルの精度を向上させることができます。お客様は、自動モデルチューニングにスポットインスタンスを使用することもできます。推論については、お客様は SageMaker Operators を使用して、SageMaker のトレーニング済みモデルを完全マネージド型の Auto Scaling クラスターにデプロイし、複数のアベイラビリティーゾーンに分散して、リアルタイムまたはバッチ予測の高いパフォーマンスと可用性を実現できます。
Amazon SageMaker Operators for Kubernetes は、本書の執筆時点では、米国東部 (オハイオ)、米国東部 (バージニア北部)、米国西部 (オレゴン)、および欧州 (アイルランド) で一般公開されています。使用を開始するには、ユーザーガイドと GitHub リポジトリ のステップバイステップのチュートリアルを参照してください。