投稿日: Sep 9, 2022

Amazon SageMaker は、あらゆるユースケースで予測 (推論とも言う) を行う機械学習 (ML) モデルをデプロイするためのサービスです。このたび、EBS ボリュームの最大サイズとタイムアウトのクォータを設定したうえで、Amazon SageMaker のリアルタイム非同期推論オプションに対応した大規模モデル (最大 500 GB) をデプロイできるようになりました。これにより、SageMaker のフルマネージド型のリアルタイム非同期推論機能を活用した大規模 ML モデル (GPT や OPT のバリアントなど) のデプロイおよび管理が可能です。

従来、SageMaker で SageMaker エンドポイントにアタッチされていた EBS ボリュームは最大 30 GB だったため、デプロイ可能なモデルのサイズにもそれに応じた制限がありました。今回、EBS ボリュームが推論ニーズに合わせて 500 GB までサイズ設定可能になったことで、使用できるモデルのサイズとパッケージングできるリソースの数も増大しました。さらに、コンテナのヘルスチェックとダウンロードにおけるタイムアウトのクォータも 60 分まで設定可能になったため、モデルと関連リソースのダウンロードおよびロードの時間を延長できます。これらの変更により、サイズが大きくなりがちな、より高度な深層学習モデルのデプロイが SageMaker で可能になりました。例えば、先日リリースされた ml.p4d および ml.g5 インスタンスを利用して、複数の GPU をまたいでメモリを活用できる大規模モデルをデプロイし、ハイパフォーマンスな推論を実行できます。

今回リリースされた設定オプションは SageMaker を提供中の商用リージョンすべてで利用可能です。

使用を開始するには、こちらのドキュメントをお読みください。ユースケースの例をご覧いただけるブログ記事もあります。同記事は、SageMaker で今回の新オプションと DeepSpeed を使用して大規模モデルを複数の GPU デバイスに分散し、ハイパフォーマンスな推論を実行する方法について解説したものです。