メインコンテンツに移動

Amazon EC2

AWS EC2 Trn3 インスタンス

次世代のエージェンティックアプリケーション、推論アプリケーション、動画生成アプリケーションに最適なトークンエコノミクスを提供するように特別に設計されています。

Amazon EC2 Trn3 UltraServers を利用すべき理由

今日の最先端モデルは、100 万トークンを超えるロングコンテキストをサポートする 1 兆パラメータのマルチモーダルモデルにシフトしつつあり、スケールアップした高性能な次世代のコンピューティングが必要です。Amazon EC2 Trn3 UltraServers と AWS Neuron デベロッパースタックは、こうした需要に応えるために設計されており、次世代のエージェントシステムや推論システムを大規模にトレーニングして提供するために必要なパフォーマンス、コスト効率、エネルギー効率を実現しています。 

Amazon EC2 Trn3 UltraServers は、第 4 世代の AI チップ Trainium3 を搭載しています。これは、次世代のエージェンティックアプリケーション、推論アプリケーション、動画生成アプリケーションに最適なトークンエコノミクスを提供するように特別に設計された最初の 3nm AWS AI チップです。

Trn3 UltraServer は、Trn2 UltraServers と比較して、最大 4.4 倍のパフォーマンス、3.9 倍のメモリ帯域幅、 4 倍以上のワットあたりのパフォーマンスを提供し、強化学習、Mixture-of-Experts (MoE)、推論、ロングコンテキストアーキテクチャなど、最先端スケールのモデルのトレーニングと提供において最適なコストパフォーマンスを実現します。Trn3 UltraServers は、コストパフォーマンスとスケーラビリティにおける Trainium ファミリーのリーダーシップを引き継ぎ、より迅速なトレーニングと、より高いパフォーマンスとコスト効率を備えた次世代の基盤モデルの導入を支援します。

Trn3 UltraServers は、最大 144 個の Trainium3 チップ (最大 362 個の FP8 PFLOP) までスケールでき、EC2 UltraClusters 3.0 では数十万個のチップまでスケールできます。 次世代の Trn3 UltraServer は、チップあたり 2TB/s の帯域幅を備えた NeuronLink-v4 を使用したオールツーオールファブリックである NeuronSwitch-v1 を搭載しています。

PyTorch、JAX、Hugging Face Optimum Neuron、その他のライブラリのネイティブサポートと、Amazon SageMaker、EKS、ECS、AWS Batch、ParallelCluster 間の完全な互換性により、簡単に使い始めることができます

Missing alt text value

利点

AWS Trainium3 チップを搭載した Trn3 UltraServers は、Trn2 UltraServers と比較して、最大 4.4 倍のパフォーマンス、3.9 倍のメモリ帯域幅、4 倍のワットあたりのパフォーマンスを提供します。Amazon Bedrock では、Trainium3 は最速のアクセラレーターで、Trainium2 の最大 3 倍のパフォーマンスを発揮します。この大幅なパフォーマンスの向上は、大規模にサービスを提供する GPT-OSS などのモデルのスループットが、Trainium2 ベースのインスタンスと比較して大幅に向上し、ユーザーあたりのレイテンシーを低く抑えられることにもつながります。

Trn3 UltraServer は最大 144 個の Trainium3 チップまでスケールでき、新しいラックは Trn2 の 2 倍以上のチップ密度を実現し、ラックあたりの処理能力を高め、データセンターの効率を向上させます。Trn3 UltraServers は AWS Nitro System と Elastic Fabric Adapter (EFA) 上に構築されており、ノンブロッキング、マルチペタビットスケールの EC2 UltraClusters 3.0 にデプロイされているため、分散型トレーニングやサービス用に数十万個の Trainium チップまでスケールできます。

Trainium のパフォーマンスにおけるリーダーシップの伝統を引き継ぐ Trn3 インスタンスは、従来の AI アクセラレーターよりも優れたコストパフォーマンスを提供するため、トークンあたりのコストと実験あたりのコストを削減できます。GPT-OSS や最先端スケールの LLM などのワークロードのスループットが高いと、推論コストが削減され、最も要求の厳しいモデルのトレーニング時間が短縮されます。

当社初の 3nm AI チップである AWS Trainium3 チップは、次世代のエージェンティックアプリケーション、推論アプリケーション、動画生成アプリケーションに最適なトークンエコノミーを提供するように最適化されています。Trn3 UltraServers は、Trn2 UltraServers の 4 倍以上のエネルギー効率を提供し、Amazon Bedrockでも同様です。  実際には、Trn3 は Trn2 UltraServer のメガワットあたりの出力トークンの 5 倍以上を達成すると同時に、ユーザーあたりのレイテンシーは同程度に維持されるため、パフォーマンスを損なうことなく持続可能性の目標を達成できます。

Trn3 UltraServers は、AWS Trainium と AWS Inferentia のデベロッパースタックである AWS Neuron を搭載しているため、コードを変更せずに既存の PyTorch および JAX コードを実行できます。

TNeuron は vLLM、Hugging Face Optimum Neuron、PyTorch Lightning、TorchTitan などの一般的な ML ライブラリをサポートし、Amazon SageMaker、Amazon SageMaker HyperPod、Amazon EKS、Amazon ECS、AWS Batch、AWS ParallelCluster などのサービスと統合されています。

特徴

各 AWS Trainium3 チップは 2.52 FP8 ペタフロップスのコンピューティングを実現し、Trn3 UltraServers は 144 個の Trainium3 チップまでスケールでき、1 台の UltraServer で最大 362 FP8 ペタフロップスの合計 FP8 コンピューティングを実現できます。この高密度コンピューティングエンベロープは、最先端スケールのトランスフォーマー、Mixture-of-Experts モデル、およびロングコンテキストアーキテクチャのトレーニングと提供を目的として設計されています。

AWS Trainium3 は前世代と比較してメモリ容量も帯域幅も向上し、各チップは 144 GB の HBM3e と 4.9 TB/s のメモリ帯域幅を備えています。Trn3 UltraServer は、最大 20.7 TB の HBM3e と 706 TB/s の総メモリ帯域幅を備えていて、バッチサイズの拡大、コンテキストウィンドウの拡張、超大規模なマルチモーダル、動画、および推論モデルの利用率向上を可能にします。

Trn3 UltraServers は、チップ間相互接続帯域幅を Trn2 UltraServers の 2 倍にするオールツーオールファブリックである NeuronSwitch-v1 を導入しました。これにより、モデル並列効率が向上し、MoE および Tensor 並列トレーニングの通信オーバーヘッドが削減されます。 Trn3 UltraServers は、UltraServer あたり最大 144 個のチップをサポートし、Trn2 UltraServers の 2 倍以上となっています。大規模な分散型トレーニングでは、1 つのノンブロッキングのペタビットスケールのネットワークに、数十万個の Trainium3 チップを搭載した UltraCluster 3.0 の Trn3 UltraServers をデプロイします。

Trainium3 は FP32、BF16、MXFP8、MXFP4 の精密モードをサポートしているため、高密度のワークロードとエキスパートが並列するワークロード全体で精度と効率のバランスを取ることができます。組み込みの集合通信エンジンにより、大規模なトランスフォーマー、ディフュージョン、Mixture-of-Experts モデルに対して同期が加速され、トレーニングのオーバーヘッドが削減され、エンドツーエンドのトレーニングスループットが大きな規模で向上します。

Trn3 UltraServers は AWS Neuron SDK を使用してプログラミングされています。AWS Neuron SDK は、AWS Trainium と AWS Inferentia 用のコンパイラ、ランタイム、トレーニング、推論のライブラリと開発者用ツールを備えています。Neuron Kernel Interface (NKI) は、Trainium 命令セット、メモリ、実行スケジューリングへの低レベルのアクセスを提供するため、パフォーマンスエンジニアはカスタムカーネルを構築し、標準フレームワークを超えてパフォーマンスを向上させることができます。Neuron Explorer は、統合されたプロファイリングおよびデバッグ環境を提供し、PyTorch や JAX コードからハードウェア操作までの実行をトレースし、シャーディング戦略、カーネル最適化、大規模な分散実行に関する実用的なインサイトを提供します。

今日お探しの情報は見つかりましたか?

ぜひご意見をお寄せください。ページのコンテンツ品質の向上のために役立てさせていただきます