投稿日: Dec 22, 2023

AWS Neuron は、生成系 AI 向けに構築された Amazon EC2 Inferentia および Trainium ベースのインスタンス用の SDK です。本日、Neuron 2.16 のリリースに伴い、Inf2 インスタンスでの Llama-2 70b モデル推論のサポートを開始することをお知らせします。 

Neuron は PyTorch や TensorFlow などの一般的な ML フレームワークと統合されているため、ベンダー固有のソリューションを必要とせずに、最小限のコード変更で使用開始できます。Neuron には、Trn1 インスタンスおよび Inf2 インスタンスでの生成系 AI モデルの高性能トレーニングと推論をサポートするコンパイラ、ランタイム、ツール、ライブラリが含まれています。 

Neuron 2.16 では、Transformers NeuronX を使用した Llama-2 70b モデルと Mistral-7b モデルの推論サポートが追加されました。このリリースには PyTorch 2.1 (ベータ) と Amazon Linux 2023 のサポートが含まれています。PyTorch Lightning Trainer (ベータ) がサポートされることで、Neuron 2.16 によって LLM モデルトレーニングのユーザーエクスペリエンスが向上します。PyTorch 推論によって、ロード済みモデルの微調整された異なる重みを動的にスワップできるようになりました。このリリースでは、Neuron Distributed Event Tracing (NDET) ツールが導入されました。これを使用すると、Neuron Profiler ツールでのデバッグと集団通信オペレーターのプロファイリングを改善できます。

AWS Neuron SDK を使用して、Trn1 インスタンスと Inf2 インスタンスでモデルをトレーニングおよびデプロイできます。これらのインスタンスは、オンデマンドインスタンス、リザーブドインスタンス、スポットインスタンスとして、または Savings Plan の一部として、米国東部 (バージニア北部)、米国西部 (オレゴン)、米国東部 (オハイオ) の AWS リージョンで利用できます。 

Neuron 2.16 の新機能や機能強化の一覧については、Neuron リリースノートを参照してください。Neuron を使い始めるには、以下を参照してください。