投稿日: Oct 10, 2022
AWS Neuron で AWS Trainium を利用した Amazon EC2 Trn1 インスタンスのサポートが開始され、高性能で費用対効果の高い深層学習トレーニングが大規模に利用できるようになります。Neuron SDK には、PyTorch や Tensorflow などの一般的な ML フレームワークと統合されるコンパイラ、ランタイムライブラリ、プロファイリングツールが含まれています。この Neuron 2.x の最初のリリースにより、デベロッパーは Trn1 インスタンスで深層学習トレーニングワークロードを実行できるようになり、同等の GPU ベースの EC2 インスタンスよりもトレーニングコストを最大 50% 節約しながら、人気のある NLP モデルのために AWS クラウドで最高のトレーニングパフォーマンスを得ることができます。
Neuron での深層学習モデルのトレーニングのサポートは、言語モデルを初めとし、ビジョンモデルなどのモデルファミリーにも広がっています (Neuron ロードマップに概要が示されています)。言語モデルでは、このリリースの Neuron は、GPT などの Transformers Encoder/Autoencoder および Transformers Decoders/Autoregressive モデルアーキテクチャをサポートしています。デベロッパーのワークフローを加速させ、トレーニングワークロードについて高度なインサイトが得られるように、Neuron ではシームレスなジャストインタイムコンパイル、Eager Debug モードによる段階的な実行、およびパフォーマンスと使用率のインサイトを提供するツールがサポートされるようになりました。
デベロッパーが Tranium のイノベーションを活用し、パフォーマンスとコストのメリットを最大化できるように、Neuron はさまざまなハードウェアの最適化に対応しています。FP32、TF32、FP16、および BF16 データ型がサポートされているほか、FP32 から TF32、BF16、および FP16 への自動キャストもサポートされています。また、ハードウェアアクセラレーションによる確率的な丸め処理のサポートも追加され、FP32 から BF16 への自動キャスト時に FP32 範囲の精度、BF16 の速度でのトレーニングが可能になっています。
Trn1 UltraCluster 内のアクセラレーター間で大規模モデルの分散トレーニングをサポートするために、Neuron ではさまざまな集合的コンピューティングオペレーションのサポートを開始し、AWS クラウドで現在提供されている最高のネットワーク帯域幅である 800 Gbps の EFA ネットワークのサポートも開始します。そのほか、パブリック gitHub リポジトリでの Megatron-LM などの分散トレーニングライブラリのサポートも行います。
デベロッパーは、AWS Deep Learning AMI や AWS Deep Learning Containers、またマネージドサービスの Amazon Elastic Container Service (Amazon ECS) や AWS ParallelCluster などを使用して、Trn1 インスタンスで DL トレーニングワークロードを実行できます。Amazon Elastic Kubernetes Service (Amazon EKS)、Amazon SageMaker、AWS Batch もサポート可能になります。 デベロッパーがスムーズに使用を開始できるように、このリリースには HuggingFace BERT-large の事前トレーニングと微調整、および Megatron-LM GPT3 (6.7B) モデルの事前トレーニングの例が用意されています。
Trn1 インスタンスは、オンデマンドインスタンス、リザーブドインスタンス、スポットインスタンスとして、または Savings Plan の一部として、米国東部 (バージニア北部) および米国西部 (オレゴン) の AWS リージョンで利用できます。Trn1 インスタンスの使用を開始するには、Neuron のドキュメントを参照してください。このリリースの機能、機能強化、および変更点の完全なリストについては、リリースノートを参照してください。今後の機能についてのインサイトを得るには、Neuron ロードマップを参照してください。