Amazon SageMaker で生成 AI 推論のスケーリング時間を短縮する新機能を導入

投稿日: 2024年12月6日

SageMaker Inference の 2 つの新機能、Container Caching と Fast Model Loader を発表します。これらの機能により、生成 AI モデルのデプロイとスケーリングが大幅に強化されます。今回のイノベーションでは大規模言語モデル (LLM) の効率的なスケーリングに関連する難題に取り組んでおり、トラフィック急増時の応答時間が短縮され、スケーリングの費用対効果が向上します。これらの機能を使用するとモデルの読み込みや自動スケーリングに要する時間が短縮されるので、需要の変動に対する生成 AI アプリケーションの対応力を向上させることができます。特に、トラフィックパターンが動的なサービスにメリットがあります。

Container Caching はコンテナイメージを事前にキャッシュするので、推論向けの生成 AI モデルのスケーリングに要する時間が大幅に短縮されます。スケールアップ時にダウンロードする必要がなくなるので、生成 AI モデルのエンドポイントのスケーリング時間が大幅に短縮されます。Fast Model Loader は、モデルの重みを Amazon S3 からアクセラレーターに直接ストリーミングするので、従来の方法に比べてはるかに速くモデルを読み込めます。これらの機能を使用すると、迅速な対応力が向上した自動スケーリングポリシーを作成でき、定義したしきい値に達したら即時に SageMaker で新しいインスタンスつまりモデルのコピーを追加できます。そのため、トラフィックが急増しても最適なパフォーマンスを維持できると同時にコストを効果的に管理できます。

これらの新機能は、Amazon SageMaker Inference が使用できるすべての AWS リージョンで利用できます。詳細については、詳細な実装ガイダンスに関するドキュメントを参照してください。