投稿日: Nov 27, 2023

本日、Amazon SageMaker は NVIDIA の TensorRT-LLM ライブラリをサポートする大規模モデル推論 (LMI) 深層学習コンテナ (DLC) の新しいバージョン (0.25.0) をリリースしました。これらのアップグレードにより、お客様は SageMaker の大規模言語モデル (LLM) を最適化するための最先端のツールに簡単にアクセスできるようになります。Amazon SageMaker LMI TensorRT-LLM DLC は、以前のバージョンと比較して Llama2-70B、Falcon-40B、および Codellama-34B モデルのレイテンシーを平均 33% 削減し、スループットを平均 60% 向上させます。

LLM は最近、幅広いアプリケーションにわたって前例がないほど人気が高まっています。ただし、これらのモデルは大きすぎて単一のアクセラレータや GPU デバイスに収まらないことが多く、低レイテンシーの推論やスケーラビリティの実現は容易ではありません。Amazon SageMaker には LMI 深層学習コンテナ (DLC) が備わっており、お客様が利用可能なリソースを最大限に活用してパフォーマンスを向上させることができます。最新の LMI DLC は、スループットを向上させる推論リクエストの継続的なバッチ処理サポート、レイテンシーを改善するための効率的な推論集合演算、GPU のパフォーマンスを最大化する NVIDIA の最新の TensorRT-LLM ライブラリを備えています。LMI TensorRT-LLM DLC は、モデル ID とオプションのモデルパラメータを要求するだけで TensorRT-LLM でのコンパイルを簡素化するローコードインターフェイスを提供します。TensorRT-LLM 最適化モデルの構築に必要な面倒な作業はすべて LMI DLC によって管理されます。お客様は、LMI DLC を使用して最新の量子化技術 (GPTQ、AWQ、SmoothQuant) を活用することもできます。 

これらの新しい LMI DLC は、SageMaker が利用可能なすべての AWS リージョンでサポートされています。開始方法の詳細な手順については、AWS ML ブログ大規模モデル推論 DLC のドキュメント、およびサンプルノートブックを参照してください。