Amazon SageMaker が新しい生成 AI 推論最適化機能を導入
本日、Amazon SageMaker は、Llama 3、Mistral、Mixtral モデルなどの生成 AI モデルで、コストを最大 50% 削減しながらスループットを最大 2 倍向上させる、新しい推論機能の一般提供を発表しました。例えば、Llama 3-70B モデルを使用すると、ml.p5.48xlarge インスタンスで最大約 2,400 トークン/秒を達成できます (以前は最適化なしで約 1,200 トークン/秒)。
この新機能により、お客様は投機的デコーディング、量子化、コンパイルなどの最新のモデル最適化手法のメニューから選択し、それらを生成 AI モデルに適用できます。SageMaker は、深層学習のフレームワークやライブラリとともに、最適化レシピを実行するために必要なハードウェアのプロビジョニングという面倒な作業を行います。お客様は、さまざまな一般的なオープンソースモデルで大規模にパフォーマンスがテストされた SageMaker の投機的デコードソリューションについてのサポートをすぐに受けることができます。また、独自の投機的デコードソリューションを用意することもできます。量子化に関しては、SageMaker は異なるモデルアーキテクチャでの精度型との互換性とサポートを保証します。コンパイルのために、SageMaker のランタイムインフラストラクチャは、自動スケーリング時間を短縮するために、最適化されたモデルの効率的な読み込みとキャッシュを確実に行います。
お客様は AWS SDK for Python (Boto3)、SageMaker Python SDK、または AWS コマンドラインインターフェイス (AWS CLI) からこの新しい機能を利用できます。この機能は、米国東部 (バージニア北部)、米国東部 (オハイオ)、米国西部 (オレゴン)、アジアパシフィック (ムンバイ)、アジアパシフィック (シンガポール)、アジアパシフィック (シドニー)、アジアパシフィック (東京)、カナダ (中部)、欧州 (フランクフルト)、欧州 (アイルランド)、欧州 (ロンドン)、欧州 (パリ)、欧州 (ストックホルム)、および南米 (サンパウロ) のリージョンで一般提供されるようになりました。
詳細については、ドキュメントページと AWS ML ブログをご覧ください。