投稿日: Oct 10, 2022
AWS から、Amazon Elastic Compute Cloud (Amazon EC2) Trn1 インスタンスの一般提供開始をお知らせします。Amazon EC2 Trn1 インスタンスには、クラウドでの高性能 ML トレーニング用に構築された AWS Trainium チップが搭載されています。 Trn1 インスタンスは、AWS での一般的な自然言語処理 (NLP) モデルの深層学習 (DL) トレーニングで最高のパフォーマンスを発揮し、同等の GPU ベースの EC2 インスタンスよりもコストが最大で 50% 削減されます。Trn1 インスタンスの使用を開始するには、PyTorch や TensorFlow などの一般的な ML フレームワークを使用します。これにより、トレーニングコストの削減、トレーニング時間の短縮、イテレーションの高速化による革新的なモデルの構築、生産性の向上が可能になります。EC2 Trn1 インスタンスを使用すると、音声認識、レコメンデーション、不正検出、画像と動画の分類、予測などの幅広い用途にわたって、自然言語処理 (NLP)、コンピュータービジョン、レコメンダーモデルをトレーニングできます。
Trn1 インスタンスは、最大 16 個の AWS Trainium チップを備えています。これは、AWS Inferentia の後に AWS によって構築された第 2 世代の ML チップです。Trn1 インスタンスは、最大 800 Gbps の Elastic Fabric Adapter (EFA) ネットワーク帯域幅を備えた最初の EC2 インスタンスです。効率的なデータとモデルの並列処理のために、Trn1 インスタンスには 512 GB の高帯域幅メモリが搭載されており、最大 3.4 ペタフロップスの FP16/BF16 コンピューティング能力を備えています。インスタンス内の高帯域幅ノンブロッキング相互接続である NeuronLink も装備されています。大規模な深層学習モデルをサポートするため、Trn1 インスタンスが EC2 UltraCluster にデプロイされます。UltraClusters を使用して、最大 30,000 の Trainium アクセラレータに拡張できます。これはノンブロッキングのペタビットスケールネットワークに相互接続されており、6.3 エクサフロップスのコンピューティング能力を持つスーパーコンピューターにオンデマンドでアクセスできます。Trn1 インスタンスでは、新しい Configurable FP8、動的入力形状、制御フロー、C++ カスタム演算子、確率的な丸め処理など、幅広いデータ型がネイティブでサポートされています。AWS Neuron SDK では、これらの高度な機能のロックが解除され、ジャストインタイム (JIT) コンパイルと Eager Debug モードのサポートが追加されます。AWS Neuron は、PyTorch、TensorFlow、Megatron-LM、Hugging Face、PyTorch FSDP などの主要な ML フレームワークおよびライブラリと統合されているため、既存のフレームワークを引き続き使用し、最小限のコード変更でアプリケーションを実行することができます。
デベロッパーは、AWS Deep Learning AMI や AWS Deep Learning Containers、またマネージドサービスの Amazon Elastic Container Service (Amazon ECS) や AWS ParallelCluster などを使用して、Trn1 インスタンスで DL トレーニングワークロードを実行できます。Amazon Elastic Kubernetes Service (Amazon EKS)、Amazon SageMaker、AWS Batch もサポート可能になります。
Amazon EC2 Trn1 インスタンスには 2 つのサイズが用意されています。trn1.2xlarge は 1 つのアクセラレータを使用して実験し、費用対効果の高い小さなモデルをトレーニングするためのもので、trn1.32xlarge は大規模なモデルをトレーニングするためのものです。これらは、オンデマンドインスタンス、リザーブドインスタンス、スポットインスタンスとして、または Savings Plan の一部として、米国東部 (バージニア北部) および米国西部 (オレゴン) の AWS リージョンで利用できます。
Trn1 インスタンスの詳細については、Amazon EC2 Trn1 インスタンスを参照してください。