ネットワーク集約型の生成系 AI モデルに最適化された Amazon EC2 Trn1n インスタンスの一般提供を開始

投稿日: Apr 13, 2023

AWS は本日、AWS Trainium アクセラレーターを搭載した、Amazon Elastic Compute Cloud (Amazon EC2) Trn1n インスタンスの一般提供を開始しました。Trainium 搭載の Trn1 インスタンスの機能を基盤とする Trn1n インスタンスでは、ネットワーク帯域幅が、第 2 世代の Elastic Fabric Adapter (EFAv2) の 1600 Gbps へと倍増しています。このように帯域幅が増えたことで、Trn1n インスタンスでは、大規模言語モデル (LLM) や混合エキスパート (MoE) など、ネットワーク集約型の生成系 AI モデルのトレーニングにかかる時間が最大 20% 短縮されます。Trn1 インスタンスと同じように、Trn1n インスタンスを使用すれば、他の同等の Amazon EC2 インスタンスよりもトレーニングコストを最大で 50% 節約できます。

大規模な深層学習 (DL) モデルをサポートするため、Trn1n インスタンスは、高速 EFAv2 ネットワークを使用して EC2 UltraCluster にデプロイされます。EFAv2 は、第 1 世代の EFA に比べて集合通信のパフォーマンスが最大で 50% 向上しており、分散型トレーニングを高速化します。UltraCluster を使用すれば、最大で 30,000 基の Trainium アクセラレーターにスケールし、6.3 エクサフロップスのコンピューティング性能を備えたスーパーコンピュータにオンデマンドでアクセスできます。

Trn1 と同様に、各 Trn1n インスタンスは、最大 512 GB の高帯域幅メモリ、最大 3.4 ペタフロップスの FP16/BF16 コンピューティング能力、そして、インスタンス内の高帯域幅ノンブロッキング相互接続である NeuronLink を備えています。AWS Neuron SDK には、PyTorch や TensorFlow など、一般的な機械学習 (ML) フレームワークがネイティブに統合されています。そのため、Trn1n での DL モデルのトレーニングには、お使いのフレームワークとアプリケーションをそのまま使用できます。デベロッパーは、DL トレーニングのワークロードを、AWS Deep Learning AMI や AWS Deep Learning Containers を使用して、あるいは、Amazon Elastic Container Service (Amazon ECS)、Amazon Elastic Kubernetes Service (Amazon EKS)、AWS ParallelCluster、Amazon SageMaker、AWS Batch などのマネージドサービスを使用して、Trn1n インスタンス上で実行できます。

Trn1n インスタンスの詳細については、Amazon EC2 Trn1n インスタンスの製品詳細ページを参照してください。Trn1n インスタンスの使用方法については、Neuron のドキュメントを参照してください。

ネットワーク集約型の生成系 AI モデルに最適化された Amazon EC2 Trn1n インスタンスの一般提供を開始

Internet Explorer のサポートの終了