投稿日: Mar 18, 2024

Amazon SageMaker と新たに統合された NVIDIA NIM 推論マイクロサービスを使用して、NVIDIA 高速コンピューティングインフラストラクチャで実行される大規模言語モデル (LLM) のコストパフォーマンスをさらに高めることが可能になりました。SageMaker は、機械学習と LLM を簡単に構築、トレーニング、デプロイできるフルマネージドサービスです。NVIDIA AI Enterprise ソフトウェアプラットフォームの一部である NIM は、LLM による推論用の高性能な AI コンテナを提供します。

生成 AI のユースケース向けに LLM を大規模にデプロイする場合、お客様は LLM のパフォーマンスを高速化および最適化するために、GPU 高速インスタンスや高度なフレームワーク (NVIDIA Triton Inference ServerNVIDIA TensorRT-LLM など) を使用することがよくあります。Amazon SageMaker と NVIDIA NIM を使用することで、最適化された LLM を SageMaker にすばやくデプロイできるようになり、デプロイにかかる時間が数日から数分に短縮されます。

NIMは、推論向けに最適化された、一般的な各種 LLM 用のコンテナを提供しています。すぐに使用できるサポート対象の LLM には、Llama 2 (7B、13B、70B)、Mistral-7B-Instruct、Mixtral-8x7B、NVIDIA Nemotron-3 8B と 43B、ビルド済みの NVIDIA TensorRT™ エンジンを使用する StarCoder と StarCoderPlus などがあります。これらのモデルは、NVIDIA GPU に効率的にデプロイできるように、最適なハイパーパラメータを使用してキュレートされています。他のモデル向けに、NIM では GPU 最適化バージョンを作成するためのツールも用意されています。利用を開始するには、NVIDIA API カタログから入手可能な NIM コンテナを使用し、推論エンドポイントを作成して Amazon SageMaker にデプロイします。

NIM コンテナには、Amazon SageMaker が利用可能なすべての AWS リージョンでアクセスできます。詳細については、こちらの提供開始に関するブログ記事を参照してください。