AWS Trainium アクセラレーターを搭載した Amazon EC2 Trn1 インスタンスは、高性能な (DL) トレーニング用に構築されており、同等の GPU ベースのインスタンスと比較してトレーニングコストを最大 50% 削減することが可能です。Trn1 インスタンスは、AWS で一般的な自然言語処理 (NLP) モデルの深層学習トレーニングにおいて、最高のパフォーマンスを発揮します。Trn1 インスタンスを使用すると、音声認識、レコメンデーション、不正検出、画像と動画の分類などの幅広い用途にわたって、NLP、コンピュータビジョン、レコメンダーモデルをトレーニングできます。PyTorch や TensorFlow などの一般的な機械学習 (ML) フレームワークの既存のワークフローを利用して、Trn1 インスタンスを開始することができます。AWS Neuron SDK は、これらのフレームワークとシームレスに統合されているため、数行のコード変更だけで使い始めることができます。機械学習フレームワークやライブラリ、モデルアーキテクチャ、ハードウェア最適化など、現在の Neuron のサポートについては、Neuron ドキュメントをご覧ください。
利点
トレーニング時間を短縮
Trn1 インスタンスは、高性能な深層学習専用に構築されており、トレーニング時間を数か月から数週間、あるいは数日に短縮します。トレーニング時間を短縮することで、より迅速な反復学習、より革新的なモデルの構築、そして生産性の向上が可能になります。
深層学習トレーニングのコストを削減
Trn1 インスタンスは、高性能でありながら、同等の GPU ベースのインスタンスと比較して、トレーニングにかかるコストを最大 50% 削減することができます。
機械学習フレームワークとライブラリのネイティブサポートによる構築
PyTorch や TensorFlow などの一般的な機械学習フレームワークを使用して、Trn1 インスタンスを開始することができます。AWS Neuron SDK は、これらのフレームワークとシームレスに統合されており、わずか数行のコード変更で利用を開始できます。Trn1 インスタンスで素早く始めるには、Neuron のドキュメントにある人気のあるモデル例をご覧ください。
オンデマンドで最大 6.3 エクサフロップスのコンピューティングにスケールアップ
Trn1 インスタンスは、最大 800 Gbps の Elastic Fabric Adapter (EFA) ネットワーク帯域幅を備えた最初の EC2 インスタンスです。これらのチップは EC2 UltraClusters にデプロイされ、最大 30,000 個の Trainium アクセラレーターをスケールアップすることが可能で、ノンブロッキングのペタビット級ネットワークで相互接続され、6.3 エクサフロップスのコンピューティングを提供します。
特徴
AWS Trainium アクセラレーター
Trn1 インスタンスは、DL トレーニングを加速させるために専用で構築された AWS Trainium アクセラレーターを最大 16 個搭載しています。各アクセラレーターには 2 つの第 2 世代 NeuronCore が搭載されています。効率的なデータとモデルの並列処理をサポートするために、各 Trn1 インスタンスには 512 GB の高帯域幅メモリ (HBM2e) が搭載されており、最大 3.4 ペタフロップスの FP16/BF16 コンピューティング能力を備えています。インスタンス内の超高速ノンブロッキング相互接続である NeuronLink も装備されています。精度の目標を達成しながら高いパフォーマンスを実現するために、Trainium は FP32、TF32、BF16、FP16、UINT8、設定可能な FP8 など、幅広いデータ型をネイティブにサポートしています。ハードウェアによる確率的な丸め処理をサポートし、従来の丸め処理モードと比較して高いパフォーマンスと精度を実現します。Trainium は、動的テンソル形状や C++ で記述されたカスタム演算子もサポートしており、トレーニングのニーズに合わせた柔軟で将来を見据えたインフラストラクチャを提供します。
AWS Neuron SDK
AWS Neuron SDK は、コンパイラ、フレームワーク拡張、ランタイムライブラリ、デベロッパー用ツールで構成されています。TensorFlow や PyTorch などの機械学習フレームワークとネイティブに統合されています。AWS Neuron は、Megatron-LM や PyTorch FSDP などの分散トレーニングライブラリもサポートしています。Trn1 インスタンスで素早く始めるには、Neuron のドキュメントにある人気のあるモデル例をご覧ください。
高いパフォーマンスのネットワークとストレージ
各 Trn1 インスタンスは、最大 800 Gbps の Elastic Fabric Adapter ネットワーク帯域幅をサポートします。また、各 Trn1 インスタンスは、最大 80 Gbps の Amazon Elastic Block Store (EBS) 帯域幅と、最大 8 TB のローカル NVMe ソリッドステートドライブ (SSD) ストレージをサポートし、大規模データセットへの高速ワークロードアクセスを可能にします。
Amazon EC2 UltraClusters
Trn1 インスタンスは EC2 UltraClusters にデプロイされ、最大 30,000 台の Trainium アクセラレーターをスケーリングすることが可能です。これらのアクセラレーターは、ノンブロッキングのペタビット級ネットワークで相互接続され、Amazon S3 などのストレージソリューションと連携して最大 6.3 エクサフロップスのコンピューティングを提供します。Amazon FSx for Lustre を使用すると、サブミリ秒のレイテンシーと最大で毎秒数百ギガバイトのスループットを提供する共有ストレージにアクセスすることができます。
パートナー

「PyTorch では、機械学習を研究のプロトタイピングから顧客向けの生産準備へと加速させています。私たちは、AWS チームと広範囲なコラボレーションを行い、深層学習モデルのトレーニング専用に構築された新しい AWS Trainium 搭載の Amazon EC2 Trn1 インスタンスに PyTorch のネイティブサポートを提供しています。PyTorch モデルを構築するデベロッパーは、最小限のコード変更で Trn1 インスタンスでのトレーニングを開始することができます。さらに、OpenXLA コミュニティと協力し、GPU ベースのインスタンスから Trn1 インスタンスへのモデル移行を容易にする PyTorch 分散ライブラリを実現しました。より効率的なデータ型、ダイナミックシェイプ、カスタム演算子、ハードウェア最適化型の確率的な丸め処理、イーガーデバッグモードなど、Trn1 インスタンスが PyTorch コミュニティにもたらす革新に興奮しています。これらのことから、Trn1 は PyTorch のデベロッパーが広く採用するのに適しており、今後、トレーニング性能をさらに最適化するために PyTorch に共同で貢献することを期待しています」。
応用 AI、エンジニアリングマネージャー、Geeta Chauhan 氏
お客様

「HeliXon では、タンパク質ベースの治療薬に対する次世代 AI ソリューションを構築しています。私たちは、タンパク質の機能と相互作用を解読し、大規模なゲノムデータセットを照会してターゲットを特定し、抗体や細胞治療などの治療法を設計する科学者を支援する AI ツールを開発することを目指しています。現在、私たちは FSDP のような学習分散ライブラリを使用して、多数の GPU ベースのサーバーでモデルトレーニングを並列化していますが、それでも 1 つのモデルをトレーニングするのに数週間かかっています。AWS で利用可能な最高のネットワーク帯域幅 (800 Gbps) を特徴とする Amazon EC2 Trn1 インスタンスを活用して、分散トレーニングジョブのパフォーマンスを向上させ、モデルトレーニング時間を短縮するとともに、トレーニングコストを削減できることに興奮しています」。
Helixon、CEO、Jian Peng 氏

マネーフォワード社は、オープンでフェアな金融プラットフォームで、企業や個人にサービスを提供しています。
「Amazon EC2 Inf1 インスタンスで大規模な AI チャットボットサービスを開始し、同等の GPU ベースのインスタンスと比較して推論レイテンシーを 97% 削減するとともに、コストを削減しました。カスタマイズされた NLP モデルを定期的に微調整し続けるため、モデルトレーニングの時間とコストを削減することも重要です。Inf1 インスタンスでの推論ワークロードの移行に成功した経験と、AWS Trainium ベースの EC2 Trn1 インスタンスでの初期作業に基づいて、私たちは Trn1 インスタンスがエンドツーエンドの機械学習パフォーマンスとコストを改善する上でさらなる価値を提供することを期待しています」。
株式会社マネーフォワード、CTO、中出匠哉氏

Magic は、世界をより生産的にするために、同僚のように感じられる AI を開発する統合製品および研究会社です。
「大規模な自己回帰 Transformer ベースモデルのトレーニングは、私たちの仕事の不可欠な要素です。AWS Trainium 搭載の Trn1 インスタンスは、これらのワークロードに特化して設計されており、無限に近いスケーラビリティ、高速なノード間ネットワーク、16 ビットおよび 8 ビットデータ型への高度なサポートを提供します。Trn1 インスタンスにより、大規模なモデルをより速く、より低コストでトレーニングできるようになります。Trainium の BF16 確率的な丸め処理のネイティブサポートは、私たちに特に大きな興奮を与えます。数値的精度とフル精度との区別なく、パフォーマンスを向上させます」。
Magic、共同創業者兼 CEO、Eric Steinberger 氏

CACTUS は、研究者、および研究が資金を調達し、公開し、通信し、発見される方法を改善する組織のための、一連の製品とソリューションを持っています。
「Cactus Labs では、自然言語処理、ランキング & レコメンデーション、会話型 AI、大規模言語モデル、コンピュータビジョン、AR/VR、XAI に焦点を当てた研究で、AI のパワーを利用しています。私たちは、機械学習モデルの高速なトレーニングを可能にし、研究者がインフラストラクチャコストを管理しながら、より多くの実験を行えるようにするという冒険の旅に沿い、AWS Trainium を評価できたことを嬉しく思っています。AWS Trainium の XLA 最適化、マルチワーカーデータ並列トレーニング、グラフキャッシュなどのボックス機能は、トレーニング時間を短縮し、より速く、より安く、より多くの実験を行うために非常に役立っています」。
Cactus Communications、CTO および新製品責任者、Nishchay Shah 氏
Trn1 インスタンスを利用した Amazon のサービス
1.1d9aadc21e2c942dc72b3d1c0b2d4ec9139595ad.png)
Amazon の商品検索エンジンは、何十億もの商品をインデックス化し、毎日何十億もの顧客のクエリに対応しており、世界で最も利用されているサービスの 1 つです。
「私たちは、顧客のショッピング体験を向上させるため、マルチモーダル (テキスト + 画像)、多言語、マルチロケールかつ、複数のタスクで事前トレーニング済みの、複数のエンティティ (製品、クエリ、ブランド、レビューなど) にまたがる大規模言語モデル (LLM) をトレーニングしています。Trn1 インスタンスは、他の加速機械学習ソリューションと比較して最高のパフォーマンス/ワットを提供することで、LLM をトレーニングするためのより持続可能な方法を提供し、低コストで高いパフォーマンスを実現します。今後は、新しい設定可能な FP8 データタイプや、ハードウェア加速型の確率的な丸め処理などを検討し、トレーニング効率と開発速度をさらに高めていく予定です」。
Amazon Search、VP、Trishul Chilimbi
開始方法
Amazon SageMaker を使用すれば、Trn1 インスタンスで簡単にモデルをトレーニングすることができます。インフラストラクチャを管理することなく、機械学習モデルのトレーニングとチューニングにかかる時間とコストを大幅に削減します。SageMaker を使用すると、内蔵のツールを使用して、トレーニング実験の管理と追跡、最適なハイパーパラメータの自動選択、トレーニングジョブのデバッグ、およびシステムリソースの使用状況のモニタリングを行うことができます。
製品の詳細
インスタンスサイズ | Trainium アクセラレーター |
アクセラレーター メモリ (GB) |
vCPU | インスタンス メモリ (GiB) |
ローカル NVMe ストレージ (TB) |
ネットワーク 帯域幅 (Gbps) |
EFA と RDMA サポート |
EBS 帯域幅 (Gbps) |
オンデマンド 時間あたりの料金 |
1 年 リザーブド インスタンス 有効 毎時* |
3 年 リザーブド インスタンス 有効 毎時* |
trn1.2xlarge | 1 | 32 | 8 | 32 | 0.5 | 最大 12.5 | 無 | 最大 20 | 1.34 USD | 0.79 USD | 0.4744 USD |
trn1.32xlarge | 16 | 512 | 128 | 512 | 8 | 800 | 有 | 80 | 21.50 USD | 12.60 USD | 7.59 USD |