AWS Trainium アクセラレータを搭載した Amazon Elastic Compute Cloud (EC2) Trn1 インスタンスは、大規模言語モデル (LLM) や潜在的 diffusion モデルなどの生成系 AI モデルのハイパフォーマンス深層学習 (DL) トレーニング専用に構築されています。Trn1 インスタンスは、他の同等の Amazon EC2 のインスタンスと比較して、トレーニングにかかるコストを最大 50% 削減します。 Trn1 インスタンスを使用して、テキストの要約、コード生成、質問への回答、画像や動画の生成、レコメンデーション、不正検出などの幅広いアプリケーションにわたって 100 億以上のパラメーター DL および生成系 AI モデルをトレーニングできます。
AWS Neuron SDK は、デベロッパーが AWS Trainium でモデルをトレーニングする (および AWS Inferentia アクセラレーターにモデルをデプロイする) のを支援する SDK です。PyTorch や TensorFlow などのフレームワークとネイティブに統合されるため、既存のコードやワークフローを引き続き使用して Trn1 インスタンスでモデルをトレーニングできます。機械学習 (ML) フレームワークやライブラリ、モデルアーキテクチャ、ハードウェア最適化など、現在の Neuron のサポートについては、Neuron ドキュメントをご覧ください。
Trn1n インスタンスが利用可能になりました
Trn1n インスタンスはネットワーク帯域幅を (Trn1 インスタンスと比較して) 2 倍にして、1600 Gbps の Elastic Fabric Adapter (EFAv2) になります。帯域幅の拡大により、大規模言語モデル (LLM) や混合エキスパート (MoE) などのネットワーク集約型の生成系 AI モデルのトレーニングでは、Trn1 と比較してトレーニングまでの時間が最大 20% 短縮されます。
メリット
100 億以上のパラメーターモデルのトレーニング時間を短縮
Trn1 インスタンスは、ハイパフォーマンスな DL 専用に構築されており、トレーニング時間を数か月から数週間、あるいは数日に短縮します。トレーニング時間を短縮することで、より迅速な反復学習、より革新的なモデルの構築、そして生産性の向上が可能になります。 Trn1n インスタンスは、ネットワーク帯域幅の増加によるメリットがあるモデルでは、Trn1 インスタンスよりもトレーニングまでの時間が最大 20% 短縮されます。
微調整や事前トレーニングのコストを削減
Trn1 インスタンスは、高性能でありながら、他の同等の Amazon EC2 のインスタンスと比較して、トレーニングにかかるコストを最大 50% 削減することができます。
既存の ML フレームワークとライブラリを使用
AWS Neuron SDK を使用して、Trn1 インスタンスのパフォーマンスを最大限に引き出すことができます。Neuron では、PyTorch や TensorFlow などの一般的な ML フレームワークを使用することができ、既存のコードとワークフローを引き続き使用して Trn1 インスタンスでモデルをトレーニングできます。Trn1 インスタンスをすぐに使い始めるには、Neuron のドキュメントにある人気のあるモデル例をご覧ください。
EC2 UltraClusters で 6 エクサフロップスまでスケールアップ
Trn1 インスタンスは、最大 800 Gbps の第二世代 Elastic Fabric Adapter (EFAv2) ネットワーク帯域幅をサポートしています。Trn1n インスタンスは最大 1600 Gbps の EFAv2 ネットワーク帯域幅をサポートし、ネットワーク集約型モデルのパフォーマンスをさらに高めます。両方のインスタンスは EC2 UltraClusters にデプロイされ、最大 30,000 個の Trainium アクセラレーターをスケールアップすることが可能で、ノンブロッキングのペタビット級ネットワークで相互接続され、6 エクサフロップスのコンピューティングパフォーマンスを提供します。
仕組み
-
AWS DLAMI を使用
-
Amazon EKS を使用する
-
Amazon ECS の使用
-
Amazon SageMaker の使用
-
AWS DLAMI を使用
-
Amazon EKS を使用する
-
Amazon ECS の使用
-
Amazon SageMaker の使用
特徴
AWS Trainium で最大 3 ペタフロップス
Trn1 インスタンスは、DL トレーニングを加速し、最大 3 ペタフロップスの FP16/BF16 コンピューティングパワーを実現するために特別に設計された、最大 16 個の AWS Trainium アクセラレータを搭載しています。各アクセラレーターには 2 つの第 2 世代 NeuronCore が搭載されています。
最大 512 GB の高帯域幅アクセラレーターメモリ
データとモデルの効率的な並列処理をサポートするために、各 Trn1 インスタンスには 512 GB の共有アクセラレータメモリ (HBM) があり、総メモリ帯域幅は 9.8 TB/秒です。
ハイパフォーマンスのネットワークとストレージ
エキスパートミックス (MoE) や生成系トレーニング済みトランスフォーマー (GPT) などのネットワーク集約型モデルのトレーニングをサポートするために、各 Trn1n インスタンスは最大 1600 Gbps の EFAv2 ネットワーク帯域幅を提供します。各 Trn1 インスタンスは、最大 800 Gbps の EFAv2 帯域幅をサポートしています。 EFAv2 は、第 1 世代の EFA に比べて集団通信のパフォーマンスが最大 50% 向上し、分散型トレーニングをスピードアップします。また、これらのインスタンスは、最大 80 Gbps の Amazon Elastic Block Store (EBS) 帯域幅と、最大 8 TB のローカル NVMe ソリッドステートドライブ (SSD) ストレージをサポートし、大規模データセットへの高速ワークロードアクセスを可能にします。
NeuronLink 相互接続
アクセラレータ間の高速接続と効率的な集団通信のため、Trn1 インスタンスは最大 768 GB/秒の NeuronLink をサポートしています。これは高速でノンブロッキングな相互接続です。
新しいデータタイプに最適化
精度の目標を達成しながら高いパフォーマンスを実現するために、Trn1 インスタンスは FP32、TF32、BF16、FP16、UINT8、および新しい設定可能な FP8 (CFP8) データタイプに最適化されています。
最先端の DL 最適化
速いペースの DL イノベーションと生成系 AI をサポートするために、Trn1 インスタンスには、絶えず進化する DL モデルをトレーニングするための柔軟性と拡張性を実現するいくつかのイノベーションが導入されています。Trn1 インスタンスには、ハードウェアの最適化と動的入力シェイプのソフトウェアサポートがあります。将来的に新しい演算子をサポートできるように、C++ で記述されたカスタム演算子をサポートしています。また、確率的に丸めを行う方法であるストキャスティックラウンディングをサポートしており、従来の丸めモードと比較して高いパフォーマンスと精度を実現します。
お客様

「HeliXon では、タンパク質ベースの治療薬に対する次世代 AI ソリューションを構築しています。私たちは、タンパク質の機能と相互作用を解読し、大規模なゲノムデータセットを照会してターゲットを特定し、抗体や細胞治療などの治療法を設計する科学者を支援する AI ツールを開発することを目指しています。現在、私たちは FSDP のような学習分散ライブラリを使用して、多数の GPU ベースのサーバーでモデルトレーニングを並列化していますが、それでも 1 つのモデルをトレーニングするのに数週間かかっています。AWS で利用可能な最高のネットワーク帯域幅 (800 Gbps) を特徴とする Amazon EC2 Trn1 インスタンスを活用して、分散トレーニングジョブのパフォーマンスを向上させ、モデルトレーニング時間を短縮するとともに、トレーニングコストを削減できることに興奮しています」。
Helixon、CEO、Jian Peng 氏

マネーフォワード社は、オープンでフェアな金融プラットフォームで、企業や個人にサービスを提供しています。
「Amazon EC2 Inf1 インスタンスで大規模な AI チャットボットサービスを開始し、同等の GPU ベースのインスタンスと比較して推論レイテンシーを 97% 削減するとともに、コストを削減しました。カスタマイズされた NLP モデルを定期的に微調整し続けるため、モデルトレーニングの時間とコストを削減することも重要です。Inf1 インスタンスでの推論ワークロードの移行に成功した経験と、AWS Trainium ベースの EC2 Trn1 インスタンスでの初期作業に基づいて、私たちは Trn1 インスタンスがエンドツーエンドの機械学習パフォーマンスとコストを改善する上でさらなる価値を提供することを期待しています」。
株式会社マネーフォワード、CTO、中出匠哉氏

Magic は、世界をより生産的にするために、同僚のように感じられる AI を開発する統合製品および研究会社です。
「大規模な自己回帰 Transformer ベースモデルのトレーニングは、私たちの仕事の不可欠な要素です。AWS Trainium 搭載の Trn1 インスタンスは、これらのワークロードに特化して設計されており、無限に近いスケーラビリティ、高速なノード間ネットワーク、16 ビットおよび 8 ビットデータ型への高度なサポートを提供します。Trn1 インスタンスにより、大規模なモデルをより速く、より低コストでトレーニングできるようになります。Trainium の BF16 確率的な丸め処理のネイティブサポートは、私たちに特に大きな興奮を与えます。数値的精度とフル精度との区別なく、パフォーマンスを向上させます」。
Magic、共同創業者兼 CEO、Eric Steinberger 氏

CACTUS は、研究者や組織向けに、研究の資金調達、公開、通信、発見の方法を改善する、一連の製品とソリューションを提供しています。
「Cactus Labs では、自然言語処理、ランキングとレコメンデーション、会話型 AI、大規模言語モデル、コンピュータビジョン、AR/VR、および XAI に焦点を当てた研究で、AI のパワーを利用しています。機械学習モデルの高速なトレーニングを可能にし、研究者がインフラストラクチャコストを管理しながら、より多くの実験を行えるようにするという私たちの探求に沿って、AWS Trainium を評価できたことを嬉しく思っています。XLA 最適化、マルチワーカーデータ並列トレーニング、グラフキャッシュなどの AWS Trainium のすぐに使える機能は、トレーニング時間を短縮し、より速く、より安く、より多くの実験を行うために非常に役立っています」。
Cactus Communications、CTO および新製品責任者、Nishchay Shah 氏

わたしはは、ユーモアを取り入れて、質問に対してその場で面白い答えを出す、革新的でインタラクティブな AI チャットボットサービス「OGIRI AI」を提供しています。
「私たちは、大規模言語モデルを使ってユーモアを取り入れ、AI サービスで適切な言葉を使って会話をはずませる体験をお客様に提供しています。そのためには、これらのモデルを頻繁に事前トレーニングして微調整する必要があります。私たちはテンソルとデータの並列処理を活用し、EC2 Trn1.32xlarge インスタンスで GPT ベースの日本語モデルを事前にトレーニングしました。トレーニングは 28 日以内に完了し、以前の GPU ベースのインフラストラクチャよりもコストは 33% 削減しました。モデルは急速に複雑化していくので、Trn1 の 2 倍のネットワーク帯域幅を持つ Trn1n インスタンスが大規模なモデルのトレーニングをスピードアップしてできるようになることを期待しています。」
株式会社わたしは、最高技術責任者、Yohei Kobashi 氏
パートナー

「PyTorch では、機械学習を研究のプロトタイピングから顧客向けの生産準備へと加速させています。私たちは、AWS チームと広範囲なコラボレーションを行い、深層学習モデルのトレーニング専用に構築された新しい AWS Trainium 搭載の Amazon EC2 Trn1 インスタンスに PyTorch のネイティブサポートを提供しています。PyTorch モデルを構築するデベロッパーは、最小限のコード変更で Trn1 インスタンスでのトレーニングを開始することができます。さらに、OpenXLA コミュニティと協力し、GPU ベースのインスタンスから Trn1 インスタンスへのモデル移行を容易にする PyTorch 分散ライブラリを実現しました。より効率的なデータ型、ダイナミックシェイプ、カスタム演算子、ハードウェア最適化型の確率的な丸め処理、イーガーデバッグモードなど、Trn1 インスタンスが PyTorch コミュニティにもたらす革新に興奮しています。これらのことから、Trn1 は PyTorch のデベロッパーが広く採用するのに適しており、今後、トレーニング性能をさらに最適化するために PyTorch に共同で貢献することを期待しています」。
PyTorch、応用 AI、エンジニアリングマネージャー、Geeta Chauhan 氏

「Hugging Face の使命は、優れた ML を民主化し、世界中の ML 開発者が現実世界の問題を解決できるようにすることです。そのための鍵は、最新かつ最高のモデルを、クラウド内の最高の ML アクセラレーターで可能な限り高速かつ効率的に実行できるようにすることです。私たちは Inferentia2 が、生成系 AI モデルを大規模に展開するための新しい標準方法になる可能性があることに、非常に興奮しています。Inf1 では、従来の GPU ベースのインスタンスよりも最大 70% のコスト削減を実現し、Inf2 では、BERT のようなトランスフォーマーのレイテンシーが Inferentia1 と比較して最大 8 倍低くなりました。Inferentia2 により、私たちのコミュニティはこのパフォーマンスを 100B 以上のパラメータスケールの LLM だけでなく、最新の diffusion やコンピュータービジョンモデルにも簡単にスケールできるようになります。」
Trn1 インスタンスを利用した Amazon のサービス
1.1d9aadc21e2c942dc72b3d1c0b2d4ec9139595ad.png)
Amazon の商品検索エンジンは、何十億もの商品をインデックス化し、毎日何十億もの顧客のクエリに対応しており、世界で最も利用されているサービスの 1 つです。
「私たちは、顧客のショッピング体験を向上させるため、マルチモーダル (テキスト + 画像)、多言語、マルチロケールかつ、複数のタスクで事前トレーニング済みの、複数のエンティティ (製品、クエリ、ブランド、レビューなど) にまたがる大規模言語モデル (LLM) をトレーニングしています。Trn1 インスタンスは、他の加速機械学習ソリューションと比較して最高のパフォーマンス/ワットを提供することで、LLM をトレーニングするためのより持続可能な方法を提供し、低コストで高いパフォーマンスを実現します。今後は、新しい設定可能な FP8 データタイプや、ハードウェア加速型の確率的な丸め処理などを検討し、トレーニング効率と開発速度をさらに高めていく予定です」。
Amazon Search、VP、Trishul Chilimbi 氏
開始方法
Amazon SageMaker の使用
Amazon SageMaker を使用すれば、Trn1 インスタンスで簡単にモデルをトレーニングすることができます。インフラストラクチャを管理することなく、機械学習モデルのトレーニングとチューニングにかかる時間とコストを大幅に削減します。SageMaker を使用すると、内蔵のツールを使用して、トレーニング実験の管理と追跡、最適なハイパーパラメータの自動選択、トレーニングジョブのデバッグ、およびシステムリソースの使用のモニタリングを行うことができます。
AWS Deep Learning AMI の使用
AWS Deep Learning Containers を使用する
製品の詳細
インスタンスサイズ | Trainium アクセラレーター |
アクセラレーター メモリ (GB) |
vCPU | インスタンス メモリ (GiB) |
ローカル NVMe ストレージ (TB) |
ネットワーク 帯域幅 (Gbps) |
EFA と RDMA サポート |
EBS 帯域幅 (Gbps) |
オンデマンド 時間あたりの料金 |
1 年 リザーブド インスタンス 有効 毎時* |
3 年 リザーブド インスタンス 有効 毎時* |
trn1.2xlarge | 1 | 32 | 8 | 32 | 0.5 | 最大 12.5 | 無 | 最大 20 | 1.34 USD | 0.79 USD | 0.4744 USD |
trn1.32xlarge | 16 | 512 | 128 | 512 | 8 | 800 | 有 | 80 | 21.50 USD | 12.60 USD | 7.59 USD |
trn1n.32xlarge |
16 | 512 | 128 | 512 | 8 | 1600 | はい | 80 | 24.78 USD | 14.52 USD | 8.59 USD |