AWS Neuron 2.24 に PyTorch 2.7 のサポートと推論機能の拡張を新たに導入
本日、AWS は Neuron 2.24 の一般提供を発表いたします。これにより、AWS Inferentia および Trainium ベースのインスタンスで深層学習モデルを構築およびデプロイするお客様は、新しい機能と向上したパフォーマンスを活用できます。Neuron 2.24 には、PyTorch 2.7 のサポート、推論機能の強化、一般的な機械学習フレームワークとの互換性の拡張が導入されています。これらの更新により、デベロッパーとデータサイエンティストはモデルトレーニングと推論を加速し、効率を高め、大規模言語モデルやその他の AI ワークロードのデプロイを簡素化できます。
お客様は、Neuron 2.24 を使用することで最初のトークンを生成するまでの時間 (TTFT) を短縮するプレフィックスキャッシュ、プリフィルとデコードの干渉を減らす分散推論、長いシーケンスのパフォーマンスを向上させるコンテキスト並列処理などの高度な推論機能を活用できます。このリリースには、Qwen 2.5 テキストモデルのサポートと、Hugging Face Optimum Neuron および PyTorch ベースの NxD Core バックエンドとの統合強化も組み込まれています。
Neuron 2.24 は、Inferentia インスタンスと Trainium インスタンスが提供されているすべての AWS リージョンでご利用いただけます。
詳細および新機能と機能拡張の一覧については、以下を参照してください。