- Amazon EC2›
- インスタンスタイプ›
- Inf2 インスタンス
Amazon EC2 Inf2 インスタンスを使用すべき理由
Amazon Elastic Compute Cloud (Amazon EC2) Inf2 インスタンスは、深層学習 (DL) 推論専用に構築されています。大規模言語モデル (LLM) やビジョントランスフォーマーなどの生成系人工知能 (AI) モデル向けに、Amazon EC2 で最小のコストで高いパフォーマンスを実現します。Inf2 インスタンスを使用して、テキストの要約、コード生成、ビデオと画像の生成、音声認識、パーソナライズ、不正検出などの推論アプリケーションを実行できます。
Inf2 インスタンスは、第 2 世代の AWS Inferentia チップである AWS Inferentia2 を搭載しています。Inf1 インスタンスと比較し、Inf2 インスタンスは、最大 3 倍のコンピューティングパフォーマンス、最大 4 倍のアクセラレーターメモリ、最大 4 倍のスループット、10 分の 1 以下の低レイテンシーのパフォーマンス向上を実現します。Inf2 インスタンスは Inferentia チップ間の超高速接続を備えた、スケールアウト分散推論をサポートする、Amazon EC2 で最初の推論最適化インスタンスです。Inf2 インスタンス上の複数のチップにわたって、数千億のパラメータを持つモデルを効率的かつコスト効率よくデプロイできるようになりました。
AWS Neuron SDK は、デベロッパーが AWS Inferentia チップのモデルをデプロイし、AWS Trainium チップでそれらをトレーニングするのに役立ちます。PyTorch や TensorFlow などのフレームワークとネイティブに統合されているため、既存のワークフローやアプリケーションコードを引き続き使用し、Inf2 インスタンスを実行することができます。
メリット
Inf2 インスタンスは、Amazon EC2 で初めて大規模な分散推論をサポートした推論最適化インスタンスです。チップ間の超高速接続を使用して、Inf2 インスタンス上の複数の Inferentia チップに数千億のパラメータを持つモデルを効率的にデプロイできるようになりました。
Inf2 インスタンスは、DL デプロイ向けの Amazon EC2 で、最低コストで優れたパフォーマンスを提供するように設計されています。これらは、Amazon EC2 Inf1 インスタンスと比較して、最大 4 倍のスループットと、最大 10 分の 1 以下の低レイテンシーを提供します。 Inf2 インスタンスは、他の同等の Amazon EC2 インスタンスに比べて、料金パフォーマンスが最大 40% 向上します。
AWS Neuron SDK を使用して、Inf2 インスタンスのパフォーマンスを最大限に引き出します。Neuron を使用すると、PyTorch や TensorFlow などの既存のフレームワークを使用して、Hugging Face などの一般的なリポジトリにあるモデルのパフォーマンスをすぐに最適化できます。Neuron は、TorchServe や TensorFlow Serving などのサービングツールとのランタイムインテグレーションをサポートしています。また、組み込みのプロファイルや Neuron-Top などのデバッグツールでパフォーマンスを最適化したり、TensorBoard などの一般的な視覚化ツールに統合したりするのにも役立ちます。
Inf2 インスタンスは、他の同等の Amazon EC2 インスタンスに比べて、ワットあたりのパフォーマンスが最大 50% 向上します。これらのインスタンスと基盤となる Inferentia2 チップは、高度なシリコンプロセスとハードウェアとソフトウェアの最適化を使用して、DL モデルを大規模に実行する際に高いエネルギー効率を実現します。 Inf2 インスタンスは、超大規模モデルをデプロイする際に、持続可能性の目標を達成するのに役立ちます。
特徴
Inf2 インスタンスは、合理化された集団通信のために超高速の NeuronLink に接続された最大 12 個の AWS Inferentia2 チップを搭載しています。これらは、最大 2.3 ペタフロップスのコンピューティング、および、Inf1 インスタンスよりも最大 4 倍のスループットと 10 分の1以下の低レイテンシーを提供します。
大規模な DL モデルに対応するため、Inf2 インスタンスは最大 384 GB の共有アクセラレーターメモリ (各 Inferentia2 チップで 32 GB HBM、第 1 世代の Inferentia の 4 倍) と総メモリ帯域幅が 9.8 TB/s (第 1 世代の Inferentia の 10 倍) を備えています。
Inferentia2 チップ間の高速通信のために、Inf2 インスタンスは、192 GB/ 秒の NeuronLink 超高速ノンブロッキング相互接続をサポートしています。Inf2 は、この相互接続を提供する唯一の推論最適化インスタンスです。この機能はより高価なトレーニングインスタンスでのみ利用できます。単一のチップに収まらない超大型モデルの場合、データは NeuronLink を使用してチップ間を直接流れ、CPU を完全にバイパスします。NeuronLink により、Inf2 はより高速な分散推論をサポートし、スループットとレイテンシーを向上させます。
Inferentia2 は FP32、TF32、BF16、FP16、UINT8、および新しく設定可能な FP8 (CFP8) データタイプをサポートしています。AWS Neuron は、精度とパフォーマンスを最適化しながら、高精度の FP32 および FP16 モデルを取得して、低精度のデータタイプに自動キャストします。自動キャスティングにより、精度の低い再トレーニングが不要になり、より小さなデータタイプでより高性能な推論が可能になるため、市場投入までの時間が短縮されます。
速いペースの DL イノベーションをサポートするために、Inf2 インスタンスは、絶えず進化する DL モデルをデプロイするための柔軟性と拡張性を実現するいくつかのイノベーションを備えています。Inf2 インスタンスは、ハードウェアの最適化と動的入力シェイプのソフトウェアサポートを備えています。将来的に新しい演算子をサポートできるようにするため、C++ のカスタム演算子をサポートしています。また、ストキャスティックラウンディング (確率的な丸め処理の方法) をサポートしており、従来の丸め処理の方式と比較し高いパフォーマンスと精度を実現します。
製品の詳細
|
Instance Size
|
Inferentia2 Chips
|
Accelerator Memory (GB)
|
vCPU
|
Memory (GiB)
|
Local Storage
|
Inter-Chip Interconnect
|
Network Bandwidth (Gbps)
|
EBS Bandwidth (Gbps)
|
On-Demand Price
|
1-Year Reserved Instance
|
3-Year Reserved Instance
|
|---|---|---|---|---|---|---|---|---|---|---|---|
|
inf2.xlarge
|
1
|
32
|
4
|
16
|
EBS のみ
|
該当なし
|
最大 15
|
最大 10
|
0.76 USD
|
0.45 USD
|
0.30 USD
|
|
inf2.8xlarge
|
1
|
32
|
32
|
128
|
EBS のみ
|
該当なし
|
最大 25
|
10
|
1.97 USD
|
1.81 USD
|
0.79 USD
|
|
inf2.24xlarge
|
6
|
192
|
96
|
384
|
EBS のみ
|
はい
|
50
|
30
|
6.49 USD
|
3.89 USD
|
2.60 USD
|
|
inf2.48xlarge
|
12
|
384
|
192
|
768
|
EBS のみ
|
はい
|
100
|
60
|
12.98 USD
|
7.79 USD
|
5.19 USD
|
お客様とパートナーの声
お客様とパートナーが Amazon EC2 Inf2 インスタンスを使用してビジネス目標を達成した例をいくつかご紹介します。
Leonardo.ai
「Leonardoの私たちのチームは、ジェネレーティブAIを活用して、クリエイティブな専門家や愛好家が比類のない品質、スピード、スタイルの一貫性を備えたビジュアルアセットを制作できるようにしています。AWS Inf2 の価格対パフォーマンス AWS Inf2 を利用することで、パフォーマンスを犠牲にすることなくコストを 80% 削減でき、お客様に提供できる価値提案を根本的に変え、最も高度な機能をより手頃な価格で利用できるようになりました。また、当社の成長と規模拡大に伴ってますます重要になる補助 AI サービスのコストと容量の可用性に関する懸念も緩和されます。ジェネレーティブAIの可能性を広げ続け、ユーザーの創造性と表現力の新時代を実現する上で、これは私たちにとって重要な実現技術です。」
Leonardo.ai、Head of AI、Pete Werner 氏
滑走路
「Runwayでは、当社のAI Magic Toolsスイートにより、ユーザーはこれまでにない方法でコンテンツを生成および編集できます。私たちは常に、AI を活用したコンテンツ制作で可能なことの限界を押し広げています。そして AI モデルが複雑になるにつれて、これらのモデルを大規模に実行するための基盤となるインフラストラクチャのコストが高くなる可能性があります。AWS Inferentia を搭載した Amazon EC2 Inf2 インスタンスとのコラボレーションにより、同等の GPU ベースのインスタンスよりも最大 2 倍のスループットで一部のモデルを実行できるようになりました。この高性能で低コストの推論により、より多くの機能を導入し、より複雑なモデルをデプロイし、最終的にはRunwayを使用する何百万人ものクリエイターにより良い体験を提供することができます。」
Runway、共同創業者兼 CEO、Cristóbal Valenzuela 氏
Qualtrics
Qualtrics は、エクスペリエンス管理ソフトウェアを設計および開発しています。
「Qualtricsでは、顧客、従業員、ブランド、製品の経験のギャップを埋めるテクノロジーを構築することに重点を置いています。そのために、複雑なマルチタスク、マルチモーダル DL モデルを開発して、テキスト分類、シーケンスのタグ付け、談話分析、キーフレーズ抽出、トピック抽出、クラスタリング、エンドツーエンドの会話理解などの新機能をリリースしています。これらの複雑なモデルをより多くのアプリケーションで活用するにつれ、非構造化データの量は増加し、お客様に最高のエクスペリエンスを提供するためには、Inf2 インスタンスなど、これらの要求に対応できる、より性能の高い推論最適化ソリューションが必要です。新しい Inf2 インスタンスは、レイテンシーを大幅に削減しながらより高いスループットを達成できるだけでなく、分散推論や強化された動的入力形状サポートなどの機能も導入されるため、より大規模で複雑な大規模モデルへの移行を進める際のデプロイニーズに合わせて拡張できるようになるため、期待しています。""
Qualtrics、Head of Core Machine Learning、Aaron Colak 氏
Finch Computing
Finch Computing は、政府、金融サービス、データインテグレーターのクライアント向けに人工知能アプリケーションを提供する自然言語テクノロジー企業です。
「リアルタイムの自然言語処理に対するお客様のニーズを満たすために、大規模な生産ワークロードに対応できる最先端のDLモデルを開発しています。グローバルなデータフィードを処理するために、低レイテンシーのトランザクションを提供し、高いスループットを達成する必要があります。私たちはすでに多くの本番ワークロードを Inf1 インスタンスに移行し、GPU に比べて 80% のコスト削減を達成しました。現在、私たちは、書かれたテキストからより深く、よりインサイトに満ちた意味を導き出す、より大規模で複雑なモデルを開発しています。多くのお客様がこれらのインサイトにリアルタイムでアクセスする必要があります。そして Inf2 インスタンスのパフォーマンスは、Inf1 インスタンスよりも低いレイテンシーと高いスループットを実現するのに役立ちます。Inf2のパフォーマンスの向上と、動的入力サイズのサポートなどの新しいInf2機能により、コスト効率が向上し、リアルタイムの顧客体験が向上し、お客様がデータから新しい洞察を得られるよう支援しています。」
Finch Computing、Chief Architect、Franz Weckesser 氏
株式会社マネーフォワード
株式会社マネーフォワードは、オープンでフェアな金融プラットフォームを企業や個人に提供しています。このプラットフォームの一部として、マネーフォワードのグループ企業である株式会社 HiTTO は、カスタマイズされた自然言語処理 (NLP) モデルを使用して企業顧客の多様なニーズに対応する AI チャットボットサービスを提供しています。
「Amazon EC2 Inf1 インスタンスで大規模な AI チャットボットサービスを開始したところ、コストも削減しながら、同等の GPU ベースのインスタンスと比べて推論レイテンシーが 97% 短縮されました。Amazon EC2 Inf2 インスタンスでの最初のテスト結果で、さらなるパフォーマンスの向上を確認できたことは非常に喜ばしいことです。同じカスタム NLP モデルを使用して、AWS Inf1 と比較して、Inf2 はさらにレイテンシーを 10 倍削減することができました。数十億パラメーターの大規模なモデルに移行するにつれ、Inf2は、お客様に優れたエンドツーエンドのユーザーエクスペリエンスを提供し続けることができるという自信を与えてくれます。」
株式会社マネーフォワード、CTO、中出 匠哉 氏
ファイル読み取り
「Fileread.ai では、質問するのと同じくらい簡単にドキュメントを操作できるソリューションを構築しています。これにより、ユーザーはすべてのドキュメントから探しているものを見つけ、適切な情報をより早く得ることができます。新しい Inf2 EC2 インスタンスに切り替えてから、NLP の推論能力が大幅に向上しました。コスト削減をするだけで、品質を犠牲にすることなくリソースをより効率的に割り当てることができるため、画期的なことでした。推論のレイテンシーが 33% 削減し、スループットが 50% 向上しました。このより速い転向の実現により、お客様に喜ばれています。私たちのチームは、古い G5 インスタンスと比較した Inf2 のスピードとパフォーマンスに驚かされました。これこそが NLP モデルの展開の未来であることは明らかです。」
Fileread、CEO、Daniel Hu 氏
ヤラク
「八楽の使命は、人々が言葉の壁を越えてコミュニケーションをとるのに役立つインフラを構築することです。当社の主力製品であるヤラクゼンを使用すると、プロの翻訳者からモノリンガルの個人まで、誰でも自信を持ってテキストや文書を翻訳し、ポストエディットすることができます。このプロセスをサポートするために、翻訳、バイテキストの単語の整列、文章の分割、言語モデリングなど、様々なタスクをカバーする、深層学習モデルに基づいたさまざまな高度なツールを提供しています。Inf1 インスタンスを使用することで、GPU ベースのインスタンスと比較して、推論コストを 50% 以上削減しながら、増え続ける需要を満たすためにサービスをスピードアップすることが可能になりました。現在、次世代の大規模モデルの開発に移行しています。そのためには、低レイテンシーを維持しながら需要を満たすことのできる、Inf2 インスタンスの拡張機能が必要です。Inf2を使用すると、同様のスループットを維持しながらモデルを10倍にスケールアップできるため、お客様にさらに高いレベルの品質を提供できるようになります。」
Yaraku、NLP Lead、Giovanni Giacomo 氏
Hugging Face
「Hugging Faceの使命は、優れたMLを民主化して、世界中のML開発者が現実世界の問題を解決できるようにすることです。そのための鍵は、最新かつ最高のモデルを、クラウド内の最高の ML チップで可能な限り高速かつ効率的に実行できるようにすることです。私たちは Inferentia2 が、生成 AI モデルを大規模に展開するための新しい標準方法になる可能性があることに、非常に興奮しています。Inf1 では、従来の GPU ベースのインスタンスと比較し、最大 70% のコスト削減を実現し、Inf2 では、BERT のようなトランスフォーマーのレイテンシーが Inferentia1 と比較して最大 8 倍低くなりました。Inferentia2により、私たちのコミュニティは、このパフォーマンスを100B以上のパラメータスケールのLLMだけでなく、最新のディフュージョンモデルやコンピュータービジョンモデルにも簡単にスケーリングできるようになります。」
PyTorch
「PyTorchは、ML開発者の研究プロトタイピングから本番環境へのデプロイまでの道のりを加速します。私たちは AWS チームと協力して、新しい AWS Inferentia2 搭載の Amazon EC2 Inf2 インスタンスにネイティブ PyTorch サポートを提供してきました。コミュニティで大規模な生成 AI モデルのデプロイを検討するメンバーが増えるにつれ、AWS チームと提携して、チップ間の高速 NeuronLink 接続により Inf2 インスタンスの分散推論を最適化できることを嬉しく思います。Inf2 により、PyTorch を使用する開発者は超大型 LLM やビジョントランスフォーマーモデルを簡単にデプロイできるようになりました。さらに、Inf2インスタンスは、効率的なデータ型、動的シェイプ、カスタム演算子、ハードウェアに最適化された確率的丸めなど、PyTorch開発者に他の革新的な機能をもたらし、PyTorchコミュニティによる幅広い採用に適しています。」
Nextira
「LLM、そしてより広くはエンタープライズレベルのジェネレーティブAIアプリケーションの歴史的課題は、高性能DLモデルのトレーニングと実行に関連するコストです。AWS Trainium と合わせて、AWS Inferentia2 は、お客様が高性能なトレーニングを必要とする場合に生じる経済的な妥協を排除します。今では、トレーニングと推論のメリットを求めているお客様が、より少ない費用でより良い結果を達成できるようになりました。Trainium と Inferentia は、今日の大企業が抱える最も厳しい DL 要件にも対応できるようにスケールを加速します。大規模なAIワークロードを実行する多くのNextiraのお客様は、これらの新しいチップセットによって直接恩恵を受けることができます。これにより、コスト削減とパフォーマンスの効率が向上し、市場での成果が早くなります。」
Nextira、創業者兼 CEO、Jason Cutrer 氏
Amazon CodeWhisperer
Amazon CodeWhisperer は、統合開発環境 (IDE) で単一行コードまたは完全関数コードの推奨をリアルタイムで生成する AI コーディングコンパニオンで、ソフトウェアをすばやく構築するのに役立ちます。
「CodeWhispererでは、ジェネレーティブAIモデルを使用してコードの推奨を提供することで、ソフトウェア開発者の生産性を向上させています。非常に効果的なコード推奨を開発するために、DL ネットワークを数十億のパラメーターにスケーリングしました。お客様は、入力中にリアルタイムで推奨されるコードを必要としています。そのため、応答の低レイテンシー化が不可欠です。大規模な生成系 AI モデルでは、ほんの一瞬で応答時間を達成するために高性能なコンピューティングが必要です。Inf2 では、大規模な入出力シーケンス用に最適化された GPU インスタンスのトレーニングで CodeWhisperer を実行するのと同じレイテンシーを実現しています。このように、Inf2 インスタンスは、開発者に可能な限り最高のエクスペリエンスを提供しながら、コストと電力を節約するのに役立っています。」
Amazon CodeWhisperer、General Manager、Doug Seven
アマゾンサーチ
Amazon の商品検索エンジンは、何十億もの商品をインデックス化し、毎日何十億ものお客様のクエリに対応しており、世界で最も利用されているサービスの 1 つです。
「Inf2 GAのローンチにとても興奮しています。Inf2 の優れたパフォーマンスと、数十億のパラメーターを持つ大規模なモデルを処理する能力が相まって、当社のサービスに最適な選択肢となり、モデルの複雑さと精度の点で新しい可能性を切り開くことができます。Inf2 によって実現される大幅なスピードアップとコスト効率により、Amazon Search のサービスインフラストラクチャに統合することで、お客様からの高まる需要に応えることができます。Inf2を使用したジェネレーティブLLMを使用して、新しいショッピング体験を強化することを計画しています。」
Amazon Search、VP、Trishul Chilimbi
開始方法
Amazon SageMaker を利用すると、Inf2 インスタンスにモデルをより簡単にデプロイでき、インフラストラクチャを管理することなく、ML モデルをデプロイするコストを大幅に削減して、パフォーマンスを改善できます。SageMaker はフルマネージドサービスであり、MLOps ツールと統合されています。そのため、モデルのデプロイをスケールし、本番でモデルをより効果的に管理して、運用上の負担を軽減できます。
AWS Deep Learning AMI (DLAMI) は、その規模を問わず、クラウド上で DL を加速するためのインフラストラクチャとツールを、DL の実践者と研究者に提供します。AWS Neuron ドライバーは DLAMI で事前設定されており、DL モデルを Inf2 インスタンスに最適にデプロイできます。
フルマネージド Kubernetes サービスである Amazon Elastic Kubernetes Service (Amazon EKS) と、フルマネージドコンテナオーケストレーションサービスである Amazon Elastic Container Service (Amazon ECS) で Inf2 インスタンスをデプロイできるようになりました。また、Neuron は AWS 深層学習コンテナに事前インストールされており、使用可能です。Inf2 インスタンスでのコンテナ実行の詳細については、Neuron コンテナのチュートリアルをご覧ください。