Amazon EC2

AWS Neuron を利用して、Trn2 インスタンスの使用を開始する

生成 AI トレーニングと推論のためのハイパフォーマンス EC2 コンピューティング

Amazon EC2 Trn2 インスタンスと UltraServers を利用すべき理由

16 個の AWS Trainium2 チップを搭載した Amazon EC2 Trn2 インスタンスは、生成 AI 専用に構築されており、数千億から数兆以上のパラメータを持つモデルのトレーニングとデプロイのためにハイパフォーマンス EC2 インスタンスを提供します。Trn2 インスタンスは、GPU ベースの EC2 P5e および P5en インスタンスよりも 30～40% 優れた料金パフォーマンスを実現します。Trn2 インスタンスを使用すると、コストを削減しながら最先端のトレーニングと推論パフォーマンスを実現することができるため、トレーニング時間の短縮、イテレーションの迅速化、AI を活用したリアルタイムのエクスペリエンスの提供が可能になります。Trn2 インスタンスを使用して、大規模言語モデル (LLM)、マルチモーダルモデル、拡散トランスフォーマーなどのモデルのトレーニングとデプロイを行い、次世代の生成 AI アプリケーションを構築できます。

最も要求の厳しい最先端のモデルでトレーニング時間を短縮し、画期的な応答時間 (トークンの待ち時間あたり) を実現するには、1 つのインスタンスでは提供できないほどのコンピューティングとメモリが必要になる場合があります。Trn2 UltraServers は、当社独自のチップ間インターコネクトである NeuronLink を使用して、4 つの Trn2 インスタンスに 64 個の Trainium2 チップを接続します。これにより、1 つのノードで利用できるコンピューティング、メモリ、ネットワーク帯域幅が 4 倍になり、AWS 上で深層学習と生成 AI ワークロードの飛躍的なパフォーマンスが実現します。推論に関しては、UltraServers は業界トップクラスの応答時間を実現し、最高のリアルタイム体験を実現するのに役立ちます。トレーニングに関しては、UltraServers はスタンドアロンインスタンスと比較して、モデル並列処理のための集団通信が高速になるため、モデルトレーニングの速度と効率が向上します。

PyTorch や JAX などの一般的な機械学習 (ML) フレームワークのネイティブサポートを利用して、Trn2 インスタンスと Trn2 UltraServers を簡単に使い始めることができます。

「Trn2 UltraServer は、どんなに要求の厳しい生成 AI ワークロードにも対応できるようになりました。」

メリット

Trn2 インスタンスは、トレーニング時間を短縮し、リアルタイムの推論エクスペリエンスをエンドユーザーに提供するのに役立ちます。Trn2 インスタンスには、当社独自のチップ間相互接続である NeuronLink で相互接続された 16 個の Trainium2 チップが搭載されており、最大 20.8 FP8 ペタフロップスのコンピューティングを実現します。Trn2 インスタンスには 46 テラバイト/秒 (TBps) のメモリ帯域幅を備えた合計 1.5 TB の HBM3 があり、3.2 テラビット/秒 (Tbps) の Elastic Fabric Adapter networking (EFAv3) ネットワーキングを実現します。Trn2 UltraServer (プレビュー版) には、NeuronLink に接続された 64 個の Trainium2 チップが搭載されており、最大 83.2 ペタフロップスの FP8 コンピューティング、6 TB の合計高帯域幅メモリ、合計 185 TBps のメモリ帯域幅、12.8 Tbps の EFAv3 ネットワーキングを実現します。

効率的な分散トレーニングを可能にするために、Trn2 インスタンスは 3.2 Tbps を実現し、Trn2 UltraServer は 12.8 Tbps の EFAv3 ネットワークを提供します。EFA は AWS Nitro System 上に構築されているため、EFA を介したすべての通信は転送中に暗号化され、パフォーマンスが低下することはありません。また、EFA は高度なトラフィックルーティングと輻輳制御プロトコルを使用しているため、数十万個の Trainium2 チップまで確実にスケールできます。Trn2 インスタンスと UltraServer は EC2 UltraClusters にデプロイされています。これにより、単一ペタビットスケールのノンブロッキングネットワーク上の数万の Trainium チップにわたるスケールアウト分散トレーニングが可能になります。

Trn2 インスタンスは、GPU ベースの EC2 P5e および P5en インスタンスよりも 30～40% 優れた料金パフォーマンスを実現

Trn2 インスタンスには Trn1 インスタンスよりも 3 倍高いエネルギー効率があります。これらのインスタンスと基盤となるチップは、高度なシリコンプロセスおよびハードウェアとソフトウェアの最適化を使用して、生成 AI ワークロードを大規模に実行する際に高いエネルギー効率を実現します。

AWS Neuron SDK は、Trn2 インスタンスと UltraServer のパフォーマンスを最大限に引き出すのに役立ちます。Neuron は、JAX、PyTorch、および Hugging Face、PyTorch Lightning などの重要なライブラリとネイティブに統合されています。Neuron は、AI の研究者や探求者が画期的なパフォーマンスを発揮できるように構築されています。PyTorch のネイティブ統合により、コードを一行も変更せずにトレーニングやデプロイを行うことができます。AI パフォーマンスエンジニア向けに、Trainium 2 へのより深いアクセスを可能にしました。これにより、パフォーマンスのファインチューニング、カーネルのカスタマイズ、モデルのさらなる拡張が可能になります。Neuron を使用すると、Trn2 インスタンスを Amazon SageMaker、Amazon EKS、Amazon ECS、AWS ParallelCluster、AWS Batch などのサービスや、Ray (Anyscale)、Domino Data Lab、Datadog などのサードパーティーサービスで使用できます。イノベーションはオープン性によって成り立つため、Neuron はオープンソースと幅広い AI コミュニティとのオープンコラボレーションを通じてイノベーションを推進することに取り組んでいます。

特徴

Trn2 インスタンスには、NeuronLink と相互接続された 16 個の Trainium2 チップが搭載されており、最大 20.8 FP8 ペタフロップスのコンピューティングを実現します。Trn2 UltraServer は、4 つの Trn2 インスタンスにわたる 64 個の Trainium2 チップに NeuronLink 接続を拡張し、最大 83.2 FP8 ペタフロップスのコンピューティングを実現します。

Trn2 インスタンスは、46 TBps の合計メモリ帯域幅を備えた 1.5 TB のアクセラレーターメモリを実現します。Trn2 UltraServer は、185 TBps の合計メモリ帯域幅を備えた 6 TB の共有アクセラレーターメモリを提供しているため、超大規模な基盤モデルにも対応できます。

超大規模基盤モデルのスケールアウト分散トレーニングをサポートするために、Trn2 インスタンスは 3.2 Tbps、Trn2 UltraServer は 12.8 Tbps の EFAv3 ネットワーク帯域幅を備えています。EC2 UltraCluster と組み合わせると、EFAv3 は EFAv2 と比較してネットワークレイテンシーが低くなります。各 Trn2 インスタンスは最大 8 TB をサポートし、各 Trn2 UltraServer は最大 32 TB のローカル NVMe ストレージをサポートしているため、大規模なデータセットにすばやくアクセスできます。

Trn2 インスタンスと UltraServer は、FP32、TF32、BF16、FP16、および設定可能な FP8 (cFP8) データタイプをサポートします。また、4 倍の稀薄性 (16:4)、確率的四捨五入、専用のコレクティブエンジンなど、最先端の AI 最適化もサポートしています。Neuron Kernel Interface (NKI) を使用すると、Triton のようなインターフェイスを備えた Python ベースの環境を使用して命令セットアーキテクチャ (ISA) に直接アクセスできるため、既存の手法よりも優れた新しいモデルアーキテクチャや高度に最適化されたコンピューティングカーネルを革新できます。

Neuron は、Trn2 でのトレーニングとデプロイ用に、Hugging Face モデルハブで 100,000 を超えるモデルをサポートしています。これには、Llama や Stable Diffusion などの一般的なモデルアーキテクチャが含まれます。Neuron は、JAX、PyTorch のほか、NeMo、Hugging Face、PyTorch Lightning、Ray、Domino Data Lab、Data Dog などの重要なツール、フレームワーク、ライブラリとネイティブに統合されています。プロファイリングとデバッグのための深いインサイトを提供しながら、すぐに分散型トレーニングと推論用にモデルを最適化します。Neuron は Amazon SageMaker、Amazon EKS、Amazon ECS、AWS ParallelCluster、AWS Batch などのサービスとも統合されています。

お客様とパートナーの声

お客様とパートナーがどのように Amazon EC2 Trn2 インスタンスを利用してビジネス目標を達成する計画を立てているかの例をいくつかご紹介します。

Anthropic

Anthropic では、毎日何百万人もの人々が業務で Claude を利用しています。AWS で 2 つの大きな進歩がありました。1 つ目は、Claude 3.5 Haiku 向けの新しい「レイテンシー最適化モード」です。これは、Amazon Bedrock 経由で Trainium2 で実行され、60% の高速化を実現しています。そして 2 つ目は、Project Rainier です。これは、数十万個の Trainium2 チップを搭載した新しいクラスターで、以前のクラスターの 5 倍以上のサイズである数百エクサフロップスを実現しています。Project Rainier は、私たちの研究と次世代のスケーリングの両方を後押ししてくれます。お客様にとって、これはより多くのインテリジェンス、より低い料金、より速い速度を意味します。私たちは、より高速な AI を構築するだけでなく、スケールする信頼できる AI を構築しています。

Anthropic、Chief Compute Officer、Tom Brown 氏

Databricks

Databricks の Mosaic AI により、組織は高品質のエージェントシステムを構築してデプロイできます。データレイクハウス上にネイティブに構築されているため、お客様はエンタープライズデータを使用してモデルを簡単かつ安全にカスタマイズし、より正確でドメイン固有の出力が得られます。Trainium の高いパフォーマンスと費用対効果のおかげで、お客様は Mosaic AI のモデルトレーニングを低コストでスケールできます。Mosaic AI の需要はすべての顧客セグメントと世界中で拡大し続けているため、Trainium2 の可用性は Databricks とその顧客にとって大きなメリットとなるでしょう。データおよび AI の世界最大手企業の 1 つである Databricks は、TRN2 を使用して顧客のためにより良い結果をもたらし、TCO を最大 30% 削減することを計画しています。

Databricks、VP of Generative AI、Naveen Rao 氏

poolside

poolside では、経済的に価値のある仕事や科学の進歩の大半を AI が推進する世界を構築することを目指しています。私たちは、ソフトウェア開発がニューラルネットワークで人間レベルの知能に達する最初の主要な能力になると考えています。なぜなら、探求と学習のアプローチを最もうまく組み合わせることができる領域だからです。それを実現するために、生成 AI の力をデベロッパーの手 (またはキーボード) に届けるための基盤モデル、API、アシスタントを構築しています。このテクノロジーを実現するための主な鍵は、製品の構築と運用に使用しているインフラストラクチャです。AWS Trainium2 では、お客様は他の AI アクセラレーターとは異なるコストパフォーマンス比で poolside の使用量をスケールできます。さらに、Trainium2 UltraServer を使用して将来のモデルをトレーニングする予定です。これにより、EC2 P5 インスタンスと比較して 40% の節約が見込まれます。

poolside、CTO & Co-founder、Eiso Kant 氏

Itaú Unibanco

Itaú Unibanco の目的は、人とお金との関係を改善し、人々の生活にプラスの影響を与えながら、トランスフォーメーションの機会を拡大することです。Itaú Unibanco では、お客様一人ひとりがユニークな存在であると捉えており、AI の力を活用してコンスタントに消費者の動向に適応する直感的なデジタルジャーニーを通じてお客様のニーズを満たすことに力を入れています。

標準的な推論からファインチューニングされたアプリケーションまで、AWS Trainium と Inferentia をさまざまなタスクにわたってテストしてきました。これらの AI チップの性能により、私たちは研究開発において重要なマイルストーンを達成することができました。バッチ推論タスクとオンライン推論タスクの両方で、GPU と比較してスループットが 7 倍向上しました。この性能の向上により、組織全体でユースケースの拡がりが見られます。最新世代の Trainium2 チップは、GenAI の画期的な機能を解き放ち、Itau のイノベーションへの扉を開いています。

Itaú Unibanco、Head of Data Science、Vitor Azeka 氏

NinjaTech AI

Ninja は、Unlimited Productivity にとってオールインワンの AI エージェントです。1 つのサブスクリプションで、世界最高の AI モデルに無制限にアクセスでき、書き込み、コーディング、ブレインストーミング、画像生成、オンラインリサーチなどの最も有用な AI スキルにもアクセスできます。Ninja はエージェント型プラットフォームであり、フロンティア基盤モデルに匹敵する (一部のカテゴリーではそれを上回っている) 世界クラスの精度を持つエージェントを組み合わせた「SuperAgent」を提供しています。Ninja の Agentic テクノロジーは、お客様が期待するユニークなリアルタイム体験を提供するために、最高性能のアクセラレーターを必要とします。

AWS TRN2 のローンチにワクワクしています。なぜなら、Llama 3.1 405B をベースにしたコアモデル Ninja LLM では、トークンあたり最高のコストパフォーマンスを発揮し、現在到達できる最速のスピードを実現できると考えているからです。Trn2 の低レイテンシーと、競争力のある料金設定、オンデマンドの可用性には目を見張るものがあります。Trn2 の登場にかつてないほどワクワクしています。

NinjaTech AI、Founder & CEO、Babak Pahlavan 氏

Ricoh

リコーの機械学習チームは、エンタープライズソリューション全体の情報の流れを管理および最適化するように設計されたワークプレイスソリューションとデジタルトランスフォーメーションサービスを開発しています。

Trn1 インスタンスへの移行は簡単で明瞭でした。4,096 個の Trainium チップのクラスターを利用して、わずか 8 日間で 13B パラメータの LLM を事前トレーニングすることができました。小さなモデルで成功を収めた後、Llama-3-Swallow-70B をベースにした新しい大規模 LLM をファインチューニングしました。Trainium を活用することで、AWS で最新の GPU マシンを使用する場合と比較して、トレーニングコストを 50% 削減し、エネルギー効率を 25% 向上させることができました。最新世代の AWS AI チップである Trainium2 を活用して、引き続きお客様に最高のパフォーマンスを最低のコストで提供できることを嬉しく思います。

リコー、デジタル技術開発センター所長、梅津良昭氏

PyTorch

AWS Neuron NxD 推論ライブラリで私が最も気に入ったのは、PyTorch モデルとシームレスに統合できることです。NxD のアプローチは単純明快でユーザーフレンドリーです。私たちのチームは、最小限のコード変更で短期間で HuggingFace PyTorch モデルをオンボーディングすることができました。連続バッチ処理や投機的デコーディングなどの高度な機能を有効にするのは簡単でした。この使いやすさによってデベロッパーの生産性が向上し、チームは統合の課題に煩わされることなく、イノベーションに集中できるようになります。

Meta、PyTorch Partner Engineering Lead、Hamid Shojanazeri 氏

Refact.ai

Refact.ai には、Retrieval-Augmented Generation (RAG) を利用したコードオートコンプリートなどの包括的な AI ツールが用意されています。これにより、より正確な提案が可能になり、独自モデルとオープンソースモデルの両方を使用してコンテキストに応じたチャットが可能になります。

お客様の話から、EC2 Inf2 インスタンスでは、EC2 G5 インスタンスと比較して、パフォーマンスが最大 20% 高く、1 USD あたりのトークンが 1.5 倍高いことがわかっています。Refact.ai のファインチューニング機能により、お客様が組織独自のコードベースと環境を把握し、それに適応する能力をさらに高めます。また、Trainium2 の機能を提供できることを嬉しく思います。これにより、ワークフローの処理がさらに高速で効率的になります。この高度なテクノロジーにより、コードベースの厳しいセキュリティ基準を順守しながらデベロッパーの生産性を高めることができるため、お客様はソフトウェア開発プロセスを加速できます。

Refact.ai、CEO & Founder、Oleg Klimov 氏

カラクリ株式会社

カラクリは、ウェブベースのカスタマーサポートの効率を高め、カスタマーエクスペリエンスを簡素化する AI ツールを構築しています。これらのツールには、生成 AI 機能を搭載した AI チャットボット、FAQ 一元化ツール、E メール返信ツールなどがあり、これらはすべてカスタマーサポートの効率と品質を向上させます。AWS Trainium を活用して、KARAKURI LM 8x7B Chat v0.1 のトレーニングに成功しました。私たちのようなスタートアップ企業にとっては、LLM の構築にかかる時間とトレーニングに必要なコストを最適化する必要があります。AWS Trainium と AWS チームのサポートのおかげで、短期間で実践的なレベルの LLM を開発することができました。また、AWS Inferentia を採用したことで、高速で費用対効果の高い推論サービスを構築できました。Trainium2 はトレーニングプロセスに革命をもたらし、トレーニング時間を半分に短縮し、効率を新たな高みへと導いてくれるので、Trainium2 から力をもらっています。

カラクリ株式会社、共同創設者、中山智文氏

ストックマーク株式会社

ストックマークは、「価値創造の仕組みを再発明し、人間性を高める」という使命のもと、最先端の自然言語処理技術を提供することで、多くの企業が革新的なビジネスを創造し、構築できるよう支援しています。ストックマークの新しいデータ分析および収集サービスである Anews と SAT は、組織に保存されているあらゆる形態の情報を整理することで生成 AI の利用を劇的に改善するデータ構造化サービスです。私たちは、これらの製品をサポートするモデルを構築およびデプロイする方法を再考する必要がありました。256 個の Trainium アクセラレーターを使用して、Stockmark-13b を開発してリリースしました。Stockmark-13b は、日本の 2,200 億トークンのコーパスデータセットでゼロから事前にトレーニングされた、130 億のパラメータを持つ大規模な言語モデルです。Trn1 インスタンスにより、トレーニングコストを 20% 削減できました。Trainium を活用して、プロフェッショナル向けのビジネスクリティカルな質問にこれまでにない正確さとスピードで回答できる LLM の開発に成功しました。この成果は、企業がモデル開発のための十分な計算リソースを確保する上で直面する課題が広範囲に及んでいることを考えると、特に注目に値します。Trn1 インスタンスの驚異的な速度とコスト削減により、Trainium2 が当社のワークフローとお客様にさらにどのようなメリットをもたらすのかを見るのを楽しみにしています。

ストックマーク株式会社、CTO 兼共同創立者、有馬幸介氏

開始方法

SageMaker による Trn2 インスタンスのサポートは、間もなく開始される予定です。Amazon SageMaker HyperPod を使用すると、Trn2 インスタンスでモデルのトレーニングを簡単に行うことができます。Amazon SageMaker HyperPod は、回復力のあるコンピューティングクラスター、最適化されたトレーニングパフォーマンス、および基盤となるコンピューティング、ネットワーク、メモリリソースの効率的な利用を実現します。また、SageMaker を使用して Trn2 インスタンスへのモデルデプロイをスケールし、本番環境でより効率的にモデルを管理し、運用上の負担を軽減することもできます。

AWS Deep Learning AMI (DLAMI) では、深層学習 (DL) の専門家と研究者にあらゆる規模の AWS での DL を加速させるためのインフラストラクチャとツールを提供しています。AWS Neuron ドライバーは、DLAMI にあらかじめ設定されており、Trn2 インスタンスで DL モデルを最適にトレーニングすることができます。

Trn2 インスタンスの Deep Learning Containers サポートが間もなく開始されます。このようなコンテナを使用して、フルマネージド Kubernetes サービスである Amazon Elastic Kubernetes Service (Amazon EKS) と、フルマネージドコンテナオーケストレーションサービスである Amazon Elastic Container Service (Amazon ECS) で Trn2 インスタンスをデプロイできるようになりました。また、Neuron は AWS Deep Learning Containers に事前インストールされており、使用可能です。Trn2 インスタンスでのコンテナ実行の詳細については、Neuron Containers チュートリアルを参照してください。

製品の詳細

Instance Size	Available in EC2 UltraServers	Trainium2 chips	Accelerator memory	vCPUs	Memory (TB)	Instance storage (TB)	Network bandwidth (Tbps)	EBS bandwidth (Gbps)
Trn2.3xlarge	無	1	96 GB	12	128 GB	1x 470 GB NVMe SSD	200	5
trn2.48xlarge	無	16	1.5 TB	192	2 TB	4 x 1.92 NVMe SSD	3.2	80
trn2u.48xlarge	有	16	1.5 TB	192	2 TB	4 x 1.92 NVMe SSD	3.2	80

AWS の使用を開始する

ステップ 1 – AWS アカウントにサインアップする

AWS 無料利用枠にすぐにアクセスできます。

詳細

ステップ 2 – 10 分間のチュートリアルで学ぶ

簡単なチュートリアルで調べて学ぶことができます。

詳細

ステップ 3 – AWS で構築を開始する

AWS プロジェクトを起動するのに役立つステップごとのガイドを使用して構築を開始します。

詳細

AWS Neuron を利用して、Trn2 インスタンスの使用を開始する

Amazon EC2 Trn2 インスタンスと UltraServers を利用すべき理由

メリット

生成 AI モデルのトレーニングと推論のパフォーマンスを最大化

高性能クラスター全体で AI トレーニングを確実かつ安全にスケール

トレーニングと推論のコストを削減

エネルギー効率の高いソリューションで持続可能性の目標を達成

デベロッパー向けに構築

特徴

AWS Trainium2 で最大 83.2 ペタフロップス

185 TBps の帯域幅を備えた最大 6 TB の HBM

ハイパフォーマンスのネットワークとストレージ

最先端の AI 最適化

100,000 を超えるモデルと一般的なフレームワークとライブラリをサポート