投稿日: Apr 18, 2024

本日、AWS は Neuron 2.18 のリリースを発表しました。これにより、PyTorch 2.1 の安定したサポートが導入され (ベータ終了)、vLLM サポートによる連続バッチ処理が追加され、Transformers NeuronX ライブラリの Llama-2-70B サンプルを使用した予測デコードのサポートが追加されました。

AWS Neuron は、生成 AI 向けに構築された Amazon EC2 Inferentia および Trainium ベースのインスタンス用の SDK です。Neuron は PyTorch や TensorFlow などの一般的な ML フレームワークと統合されます。Neuron には、Trn1 インスタンスおよび Inf2 インスタンスでの生成 AI モデルの高性能トレーニングと推論をサポートするコンパイラ、ランタイム、ツール、ライブラリが含まれています。

今回のリリースでは、LLM トレーニングと推論の両方に新機能とパフォーマンスの改善が追加され、Neuron DLAMI と Neuron DLC が更新されました。トレーニングについては、NeuronX Distributed に非同期チェックポインティングのサポート、自動パーティショニングパイプライン並列処理が追加され、PyTorch Lightning Trainer (ベータ) でのパイプライン並列処理を導入しました。推論については、Transformers NeuronX は SafeTensor チェックポイント形式のサポートを追加することでウェイトローディングのパフォーマンスを向上させ、Mixtral-8x7B-v0.1 と mistralai/Mistral-7B-Instruct-v0.2 の新しいサンプルを追加しました。NeuronX Distributed と PyTorch NeuronX にオートバケットのサポートが追加されました。

AWS Neuron SDK を使用して、Trn1 インスタンスと Inf2 インスタンスでモデルをトレーニングおよびデプロイできます。これらのインスタンスは、オンデマンドインスタンス、リザーブドインスタンス、スポットインスタンスとして、または Savings Plan の一部として AWS リージョンで利用できます。

Neuron 2.18 の新機能と機能強化の一覧については、Neuron リリースノートを参照してください。Neuron を使い始めるには、以下を参照してください。
AWS Neuron
Inf2 インスタンス
Trn1 インスタンス