- Amazon EC2›
- インスタンスタイプ›
- Trn1 インスタンス
Amazon EC2 Trn1 インスタンスを使用すべき理由
AWS Trainiumチップを搭載したAmazon Elastic Compute Cloud(EC2)Trn1インスタンスは、大規模言語モデル(LLM)や潜在拡散モデルなどのジェネレーティブAIモデルの高性能ディープラーニング(DL)トレーニングを目的として構築されています。Trn1 インスタンスは、他の同等の Amazon EC2 のインスタンスと比較して、トレーニングにかかるコストを最大 50% 削減します。 Trn1 インスタンスを使用して、テキストの要約、コード生成、質問への回答、画像や動画の生成、レコメンデーション、不正検出などの幅広いアプリケーションにわたって 100 億以上のパラメーター DL および生成 AI モデルをトレーニングできます。
AWS Neuron SDK は、デベロッパーが AWS Trainium でモデルをトレーニングする (および AWS Inferentia チップにモデルをデプロイする) のを支援する SDK です。PyTorch や TensorFlow などのフレームワークとネイティブに統合されるため、既存のコードやワークフローを引き続き使用して Trn1 インスタンスでモデルをトレーニングできます。機械学習 (ML) フレームワークとライブラリ、モデルアーキテクチャ、およびハードウェア最適化に対する現在のNeuronサポートについては、Neuronのドキュメントを参照してください。
AWS Trainium を搭載した Amazon EC2 Trn1 インスタンスの紹介
メリット
Trn1 インスタンスは、ハイパフォーマンスな DL 専用に構築されており、トレーニング時間を数か月から数週間、あるいは数日に短縮します。トレーニング時間を短縮することで、より迅速な反復学習、より革新的なモデルの構築、そして生産性の向上が可能になります。 Trn1n インスタンスは、ネットワーク帯域幅の増加によるメリットがあるモデルでは、Trn1 インスタンスよりもトレーニングまでの時間が最大 20% 短縮されます。
Trn1 インスタンスは、高性能でありながら、他の同等の Amazon EC2 のインスタンスと比較して、トレーニングにかかるコストを最大 50% 削減することができます。
AWS Neuron SDK を使用して、Trn1 インスタンスのパフォーマンスを最大限に引き出すことができます。Neuron では、PyTorch や TensorFlow などの一般的な ML フレームワークを使用することができ、既存のコードとワークフローを引き続き使用して Trn1 インスタンスでモデルをトレーニングできます。Trn1 インスタンスをすぐに使い始めるには、Neuron のドキュメントにある人気のあるモデル例をご覧ください。
Trn1 インスタンスは、最大 800 Gbps の第二世代 Elastic Fabric Adapter (EFAv2) ネットワーク帯域幅をサポートしています。Trn1n インスタンスは最大 1600 Gbps の EFAv2 ネットワーク帯域幅をサポートし、ネットワーク集約型モデルのパフォーマンスをさらに高めます。両方のインスタンスは EC2 UltraClusters にデプロイされ、最大 30,000 個の Trainium チップをスケールアップすることが可能で、ノンブロッキングのペタビット級ネットワークで相互接続され、6 エクサフロップスのコンピューティングパフォーマンスを提供します。
特徴
Trn1 インスタンスは、DL トレーニングを加速し、最大 3 ペタフロップスの FP16/BF16 コンピューティングパワーを実現するために特別に設計された、最大 16 個の AWS Trainium チップを搭載しています。各チップには 2 つの第 2 世代 NeuronCore が搭載されています。
データとモデルの効率的な並列処理をサポートするために、各 Trn1 インスタンスには 512 GB の共有アクセラレータメモリ (HBM) があり、総メモリ帯域幅は 9.8 TB/秒です。
エキスパートミックス (MoE) や生成系トレーニング済みトランスフォーマー (GPT) などのネットワーク集約型モデルのトレーニングをサポートするために、各 Trn1n インスタンスは最大 1600 Gbps の EFAv2 ネットワーク帯域幅を提供します。各 Trn1 インスタンスは、最大 800 Gbps の EFAv2 帯域幅をサポートしています。 EFAv2 は、第 1 世代の EFA に比べて集団通信のパフォーマンスが最大 50% 向上し、分散型トレーニングをスピードアップします。また、これらのインスタンスは、最大 80 Gbps の Amazon Elastic Block Store (EBS) 帯域幅と、最大 8 TB のローカル NVMe ソリッドステートドライブ (SSD) ストレージをサポートし、大規模データセットへの高速ワークロードアクセスを可能にします。
Trainium チップ間の高速接続と効率的な集団通信のため、Trn1 インスタンスは最大 768 GB/秒の NeuronLink をサポートしています。これは高速でノンブロッキングな相互接続です。
精度の目標を達成しながら高いパフォーマンスを実現するために、Trn1 インスタンスは FP32、TF32、BF16、FP16、UINT8、および新しい設定可能な FP8 (CFP8) データタイプに最適化されています。速いペースの DL イノベーションと生成系 AI をサポートするために、Trn1 インスタンスには、絶えず進化する DL モデルをトレーニングするための柔軟性と拡張性を実現するいくつかのイノベーションが導入されています。Trn1 インスタンスには、ハードウェアの最適化と動的入力シェイプのソフトウェアサポートがあります。将来的に新しい演算子をサポートできるように、C++ で記述されたカスタム演算子をサポートしています。また、ストキャスティックラウンディング (確率的な丸め処理の方法) をサポートしており、従来の丸め処理の方式と比較し高いパフォーマンスと精度を実現します。
お客様とパートナーの声
お客様とパートナーが Amazon EC2 Trn1 インスタンスを使用してビジネス目標を達成した例をいくつかご紹介します。
Databricks
コムキャスト、コンデナストをはじめ、フォーチュン 500 企業の 50% 以上を含む世界中の 10,000 を超える組織が、データ、分析、AI の統合に Databricks を活用しています。
「何千ものお客様が AWS に Databricks を実装しており、MosaicML を使用してさまざまなユースケースの基礎モデルを事前トレーニング、微調整、提供できるようになりました。AWS Trainium は、Mosaic MPT モデルのトレーニングに必要なスケールと高いパフォーマンスを低コストで提供してくれます。次世代のMosaic MPTモデルをトレーニングすることで、Trainium2はモデルをさらに高速に構築できるようになり、これまでにない規模とパフォーマンスをお客様に提供できるようになり、お客様が独自のジェネレーティブAIアプリケーションをより迅速に市場に投入できるようになります。」
データブリックス生成 AI 担当副社長、Naveen Rao 氏
ストックマーク株式会社
ストックマークは、「価値創造の仕組みを再発明し、人間性を高める」という使命のもと、最先端の自然言語処理技術を提供することで、多くの企業が革新的なビジネスを創造し、構築できるよう支援しています。
「AWS Trainiumチップを搭載したAmazon EC2 Trn1インスタンスの16ノードを使用して、Stockmark-13bを開発してリリースしました。Stockmark-13bは、日本の2200億トークンのコーパスでゼロから事前トレーニングされた、130億のパラメータを持つ大規模な言語モデルです。コーパスには、2023 年 9 月までの最新のビジネスドメインテキストが含まれています。このモデルは、JGLUE (日本語一般言語理解評価) ベンチマークで、他の同等のモデルと比較して最高の JSQuAD スコア(0.813)を達成しました。Hugging Face Hub で入手でき、MIT ライセンスがあれば商用利用も可能です。Trn1 インスタンスにより、同等の GPU インスタンスと比較してトレーニングコストを 20% 削減できました。」
ストックマーク株式会社 CTO、有馬耕介氏
リコー
RICOH は、企業間の情報の流れを管理および最適化するように設計されたワークプレイスソリューションとデジタルトランスフォーメーションサービスを提供しています。
「Trn1 インスタンスへの移行は非常に簡単でした。13B パラメータモデルのトレーニングはわずか 8 日で完了することができました。この成功を踏まえて、Trainiumでの70Bパラメーターモデルの開発とトレーニングを楽しみにしています。また、これらのインスタンスがモデルのトレーニングをより迅速かつ費用対効果の高い方法で行う可能性に期待しています。」
RICOH デジタル技術開発センター所長、梅津良昭
ヘリクソン
「Helixonでは、タンパク質ベースの治療薬向けの次世代AIソリューションを構築しています。私たちは、タンパク質の機能と相互作用を解読し、大規模なゲノムデータセットを照会してターゲットを特定し、抗体や細胞治療などの治療法を設計する科学者を支援する AI ツールを開発することを目指しています。現在、私たちは FSDP のような学習分散ライブラリを使用して、多数の GPU ベースのサーバーでモデルトレーニングを並列化していますが、それでも 1 つのモデルをトレーニングするのに数週間かかっています。AWS で利用可能な最高のネットワーク帯域幅 (800 Gbps) を備えた Amazon EC2 Trn1 インスタンスを利用して、分散型トレーニングジョブのパフォーマンスを向上させ、モデルトレーニング時間を短縮すると同時に、トレーニングコストを削減できることを嬉しく思います。」
Helixon、CEO、Jian Peng 氏
株式会社マネーフォワード
マネーフォワード社は、オープンでフェアな金融プラットフォームで、企業や個人にサービスを提供しています。
「Amazon EC2 Inf1 インスタンスで大規模な AI チャットボットサービスを開始したところ、コストも削減しながら、同等の GPU ベースのインスタンスと比べて推論レイテンシーが 97% 短縮されました。カスタマイズされた NLP モデルを定期的に微調整し続けるため、モデルトレーニングの時間とコストを削減することも重要です。Inf1 インスタンスでの推論ワークロードの移行が成功した経験と、AWS Trainium ベースの EC2 Trn1 インスタンスでの初期作業から得た経験から、Trn1 インスタンスは、エンドツーエンドの ML パフォーマンスとコストを改善する上でさらなる価値をもたらすと予想されます。」」
株式会社マネーフォワード、CTO、中出匠哉氏
Magic
Magic は、世界をより生産的にするために、同僚のように感じられる AI を開発する統合製品および研究会社です。
「大規模な自己回帰トランスフォーマーベースのモデルのトレーニングは、私たちの仕事に欠かせない要素です。AWS Trainium 搭載の Trn1 インスタンスは、これらのワークロードに特化して設計されており、無限に近いスケーラビリティ、高速なノード間ネットワーク、16 ビットおよび 8 ビットデータ型への高度なサポートを提供します。Trn1 インスタンスにより、大規模なモデルをより速く、より低コストでトレーニングできるようになります。特に、TrainiumでBF16確率的丸めがネイティブにサポートされ、数値精度が完全精度と区別がつかないのにパフォーマンスが向上することを期待しています。」
Magic、共同創業者兼 CEO、Eric Steinberger 氏
カクタス・コミュニケーションズ
CACTUS は、研究者や組織向けに、研究の資金調達、公開、通信、発見の方法を改善する、一連の製品とソリューションを提供しています。
「Cactus Labsでは、自然言語処理、ランキングとレコメンデーション、会話型AI、大規模言語モデル、コンピュータービジョン、AR/VR、XAIに焦点を当てた研究でAIの力を活用しています。機械学習モデルの高速なトレーニングを可能にし、研究者がインフラストラクチャコストを管理しながら、より多くの実験を行えるようにするという私たちの探求に沿って、AWS Trainium を評価できたことを嬉しく思っています。XLA 最適化、マルチワーカーデータ並列トレーニング、グラフキャッシュなど、AWS Trainiumのすぐに使用できる機能は、トレーニング時間を短縮し、より多くの実験をより速く、より安価に実行するのに非常に役立ちます。」
Cactus Communications、CTO および新製品責任者、Nishchay Shah 氏
わたしは
わたしはは、ユーモアを取り入れて、質問に対してその場で面白い答えを出す、革新的でインタラクティブな AI チャットボットサービス「OGIRI AI」を提供しています。
「私たちはラージ・ランゲージ・モデルを使ってユーモアを取り入れ、AIサービスでお客様にとってより関連性の高い会話型の体験を提供しています。そのためには、これらのモデルを頻繁に事前トレーニングして微調整する必要があります。私たちはテンソルとデータの並列処理を活用し、EC2 Trn1.32xlarge インスタンスで GPT ベースの日本語モデルを事前にトレーニングしました。トレーニングは 28 日以内に完了し、以前の GPU ベースのインフラストラクチャよりもコストは 33% 削減しました。私たちのモデルは急速に複雑さを増し続けているので、より大きなモデルのトレーニングをスピードアップするために、Trn1の2倍のネットワーク帯域幅を持つTRN1nインスタンスを楽しみにしています。""
株式会社わたしは、最高技術責任者、Yohei Kobashi 氏
PyTorch
「PyTorchでは、機械学習を研究用プロトタイピングからお客様に提供できる量産まで加速させています。私たちは、AWS チームと広範囲なコラボレーションを行い、深層学習モデルのトレーニング専用に構築された新しい AWS Trainium 搭載の Amazon EC2 Trn1 インスタンスに PyTorch のネイティブサポートを提供しています。PyTorch モデルを構築するデベロッパーは、最小限のコード変更で Trn1 インスタンスでのトレーニングを開始することができます。さらに、OpenXLA コミュニティと協力し、GPU ベースのインスタンスから Trn1 インスタンスへのモデル移行を容易にする PyTorch 分散ライブラリを実現しました。より効率的なデータ型、ダイナミックシェイプ、カスタム演算子、ハードウェア最適化型の確率的な丸め処理、イーガーデバッグモードなど、Trn1 インスタンスが PyTorch コミュニティにもたらす革新に興奮しています。これらすべてにより、Trn1はPyTorch開発者による幅広い採用に適しており、トレーニングパフォーマンスをさらに最適化するためのPyTorchへの今後の共同貢献を楽しみにしています。」
PyTorch、応用 AI、エンジニアリングマネージャー、Geeta Chauhan 氏
Hugging Face
「Hugging Faceの使命は、優れたMLを民主化して、世界中のML開発者が現実世界の問題を解決できるようにすることです。そのための鍵は、最新かつ最高のモデルを、クラウド内の最高の ML チップで可能な限り高速かつ効率的に実行できるようにすることです。私たちは Inferentia2 が、生成 AI モデルを大規模に展開するための新しい標準方法になる可能性があることに、非常に興奮しています。Inf1 では、従来の GPU ベースのインスタンスよりも最大 70% のコスト削減を実現し、Inf2 では、BERT のようなトランスフォーマーのレイテンシーが Inferentia1 と比較して最大 8 倍低くなりました。Inferentia2により、私たちのコミュニティは、このパフォーマンスを100B以上のパラメータスケールのLLMだけでなく、最新のディフュージョンモデルやコンピュータービジョンモデルにも簡単にスケーリングできるようになります。」
Amazon
「私たちは、顧客のショッピング体験を向上させるために、マルチモーダル(テキスト+画像)、多言語、マルチロケール、複数のタスクについて事前にトレーニングされ、複数のエンティティ(製品、クエリ、ブランド、レビューなど)にわたる大規模言語モデル(LLM)をトレーニングしています。Trn1 インスタンスは、他の加速機械学習ソリューションと比較して最高のパフォーマンス/ワットを提供することで、LLM をトレーニングするためのより持続可能な方法を提供し、低コストで高いパフォーマンスを実現します。トレーニングの効率と開発速度をさらに高めるために、新しい構成可能なFP8データ型と、ハードウェアアクセラレーションによる確率的四捨五入を検討する予定です。」
Amazon Search、VP、Trishul Chilimbi
開始方法
Amazon SageMaker を使用すれば、Trn1 インスタンスで簡単にモデルをトレーニングすることができます。インフラストラクチャを管理することなく、機械学習モデルのトレーニングとチューニングにかかる時間とコストを大幅に削減します。SageMaker を使用すると、内蔵のツールを使用して、トレーニング実験の管理と追跡、最適なハイパーパラメータの自動選択、トレーニングジョブのデバッグ、およびシステムリソースの使用のモニタリングを行うことができます。
AWS Deep Learning AMI (DLAMI) では、深層学習 (DL) の専門家と研究者にあらゆる規模の AWS での DL を加速させるためのインフラストラクチャとツールを提供しています。AWS Neuron ドライバーは、DLAMI にあらかじめ設定されており、Trn1 インスタンスで DL モデルを最適にトレーニングすることができます。
フルマネージド Kubernetes サービスである Amazon Elastic Kubernetes Service (EKS) と、フルマネージドコンテナオーケストレーションサービスである Amazon Elastic Container Service (ECS) で Trn1 インスタンスをデプロイできるようになりました。また、Neuron は AWS Deep Learning Containers に事前インストールされており、使用可能です。Trn1 インスタンスでのコンテナ実行の詳細については、Neuron コンテナチュートリアルを参照してください。
製品の詳細
|
Instance Size
|
Trainium Chips
|
Accelerator Memory (GB)
|
vCPUs
|
Instance Memory (GiB)
|
Local NVMe Storage (TB)
|
Network Bandwidth (Gbps)
|
EFA and RDMA Support
|
EBS Bandwidth (Gbps)
|
On-Demand Price per Hour
|
1-Year Reserved Instance Effective Hourly*
|
3-Year Reserved Instance Effective Hourly*
|
|---|---|---|---|---|---|---|---|---|---|---|---|
|
trn1.2xlarge
|
1
|
32
|
8
|
32
|
0.5
|
最大 12.5
|
無
|
最大 20
|
1.34 USD
|
0.79 USD
|
0.4744 USD
|
|
trn1.32xlarge
|
16
|
512
|
128
|
512
|
8
|
800
|
有
|
80
|
21.50 USD
|
12.60 USD
|
7.59 USD
|
|
trn1n.32xlarge
|
16
|
512
|
128
|
512
|
8
|
1600
|
はい
|
80
|
24.78 USD
|
14.52 USD
|
8.59 USD
|