AWS Inferentia
Amazon EC2 で、深層学習と生成 AI 推論について最低コストで高パフォーマンスを実現
Inferentia を利用すべき理由
AWS Inferentia チップは、深層学習 (DL) および生成 AI 推論アプリケーション向けに、Amazon EC2 で最低コストで高パフォーマンスを実現するために AWS によって設計されています。
第 1 世代の AWS Inferentia チップは、Amazon Elastic Compute Cloud (Amazon EC2) Inf1 インスタンスを強化し、同等の Amazon EC2 インスタンスと比較して、スループットが最大 2.3 倍になるとともに、推論あたりのコストが最大 70% 削減されます。Finch AI、Sprinklr、Money Forward、Amazon Alexa など多くのお客様が Inf1 インスタンスを採用しており、そのパフォーマンスとコスト面でのメリットを実感しています。
AWS Inferentia2 チップは、Inferentia と比較して、最大 4 倍のスループットと最大 10 倍の低レイテンシーを実現します。Inferentia2 ベースの Amazon EC2 Inf2 インスタンスは、大規模言語モデル (LLM) や Latent Diffusion Model など、複雑化の一途をたどるモデルを大規模にデプロイするように最適化されています。Inf2 インスタンスはチップ間の超高速接続を備えた、スケールアウト分散推論をサポートする、Amazon EC2 で最初の推論最適化インスタンスです。Leonardo.ai、Deutsche Telekom、Qualtrics などの多くのお客様が、自社の DL および生成 AI アプリケーションのために Inf2 インスタンスを採用しています。
AWS Neuron SDK は、デベロッパーが AWS Inferentia チップのモデルをデプロイし、AWS Trainium チップでそれらをトレーニングするのに役立ちます。 PyTorch や TensorFlow などの一般的なフレームワークとネイティブに統合するため、既存のコードやワークフローを引き続き使用し、Inferentia チップで実行することができます。
AWS Inferentia の利点
各第 1 世代の Inferentia チップには 4 つの第 1 世代 NeuronCore が搭載されており、各 EC2 Inf1 インスタンスには最大 16 個の Inferentia チップが搭載されています。各 Inferentia2 チップには 2 つの第 2 世代 NeuronCore が搭載されており、各 EC2 Inf2 インスタンスには最大 12 個の Inferentia2 チップが搭載されています。各 Inferentia2 チップは、最大 190 テラ浮動小数点演算毎秒 (TFLOPS) の FP16 パフォーマンスをサポートしています。第 1 世代の Inferentia は、チップごとに 8 GB の DDR4 メモリを搭載しており、大容量のオンチップメモリも搭載されています。Inferentia2 では、チップあたり 32 GB の HBM を搭載し、Inferentia に比べて総メモリ量を 4 倍、メモリ帯域幅を 10 倍に拡大しています。
AWS Neuron SDK は、PyTorch や TensorFlow などの一般的な機械学習フレームワークとネイティブに統合されています。AWS Neuron を使用すると、これらのフレームワークを使用して DL モデルを両方の AWS Inferentia チップに最適にデプロイできます。Neuron は、コードの変更を最小限に抑え、ベンダー固有のソリューションと連携するように設計されています。 Neuron は、自然言語処理 (NLP)/理解、言語翻訳、テキスト要約、動画と画像の生成、音声認識、パーソナライゼーション、不正検出などのための推論アプリケーションを Inferentia チップで実行するのに役立ちます。
第 1 世代の Inferentia は、FP16、BF16、INT8 のデータ型をサポートしています。Inferentia2 では、FP32、TF32、および新しい設定可能な FP8 (cFP8) データ型の追加サポートが新たに提供され、デベロッパーはパフォーマンスと精度を最適化するための柔軟性を高められるようになりました。AWS Neuron は、高精度な FP32 モデルを、精度とパフォーマンスを最適化しながら、低精度なデータ型に自動的にキャストします。自動キャストは、低精度の再トレーニングの必要性を排除することで、市場投入までの時間を短縮します。
Inferentia2 は、動的な入力サイズと C++ で書かれたカスタム演算子のためのハードウェア最適化を追加しています。また、ストキャスティックラウンディング (確率的な丸め処理の方法) をサポートしており、従来の丸め処理の方式と比較し高いパフォーマンスと精度を実現します。
Inf2 インスタンスは、同等の Amazon EC2 インスタンスに比べて、1 ワット当たり最大 50% のパフォーマンス向上を実現します。これらとその基盤である Inferentia2 チップが、DL モデルを大規模に実行するために構築されたものだからです。Inf2 インスタンスは、超大規模モデルをデプロイする際に、サステナビリティの目標を達成するのに役立ちます。
Metagenomi
Metagenomi が AWS Inferentia を使用して大規模なタンパク質設計コストを最大 56% 削減した方法をご覧ください
Tomofun
Tomofun が AWS Inferentia に移行することで BLIP 推論の導入コストを 83% 削減した方法をご覧ください
Leonardo.ai
Leonardo のチームは生成 AI を活用して、クリエイティブなプロフェッショナルや、クリエイティブなことに熱心に取り組む人々が、比類のない品質、スピード、スタイルの一貫性を備えたビジュアルアセットを制作できるようにしています。AWS Inferentia2 を利用することで、パフォーマンスを犠牲にすることなくコストを 80% 削減でき、お客様に提供できる価値提案を根本的に変え、最も高度な機能をより手頃な価格で利用できるようになります。また、当社の成長と規模拡大に伴ってますます重要になる補助 AI サービスのコストと容量の可用性に関する懸念も緩和されます。生成 AI の可能性を広げ続け、ユーザーの創造性と表現力の新時代を実現する上で、これは当社にとって重要なイネーブリングテクノロジーです。
Leonardo.ai、人工知能責任者、Pete Werner 氏
Qualtrics
Qualtrics は、エクスペリエンス管理ソフトウェアを設計および開発しています。
Qualtrics では、お客様、従業員、ブランド、製品のエクスペリエンスギャップを解消するテクノロジーを構築することに重点を置いています。そのために、複雑なマルチタスク、マルチモーダル DL モデルを開発して、テキスト分類、シーケンスのタグ付け、談話分析、キーフレーズ抽出、トピック抽出、クラスタリング、エンドツーエンドの会話理解などの新機能をリリースしています。これらの複雑なモデルをより多くのアプリケーションで活用するにつれ、非構造化データの量は増加し、お客様に最高のエクスペリエンスを提供するためには、Inf2 インスタンスなど、これらの要求に対応できる、より性能の高い推論最適化ソリューションが必要です。新しい Inf2 インスタンスに期待しています。レイテンシーを劇的に削減しながら、より高いスループットを達成できるだけでなく、分散推論や拡張された動的入力形状サポートといった機能も導入しており、より大きく、より複雑な大規模モデルに向けて推進する際のデプロイニーズを満たすためのスケーリングに役立つからです。
Qualtrics、コア機械学習部門責任者、Aaron Colak 氏
Finch Computing
Finch Computing は、政府、金融サービス、データインテグレーターのクライアント向けに人工知能アプリケーションを提供する自然言語テクノロジー企業です。
リアルタイム NLP に対するお客様のニーズを満たすため、大規模な本番環境のワークロードにも対応できる最新の DL モデルを開発しています。グローバルなデータフィードを処理するために、低レイテンシーのトランザクションを提供し、高いスループットを達成する必要があります。私たちはすでに多くの本番ワークロードを Inf1 インスタンスに移行し、GPU に比べて 80% のコスト削減を達成しました。現在、私たちは、書かれたテキストからより深く、よりインサイトに満ちた意味を導き出す、より大規模で複雑なモデルを開発しています。多くのお客様がこれらのインサイトにリアルタイムでアクセスする必要があります。そして Inf2 インスタンスのパフォーマンスは、Inf1 インスタンスよりも低いレイテンシーと高いスループットを実現するのに役立ちます。Inf2 のパフォーマンス改善と、動的入力サイズのサポートなどの Inf2 の新機能により、当社はコスト効率を改善し、リアルタイムのカスタマーエクスペリエンスを改善するとともに、お客様がデータから新しいインサイトを得られるようサポートしています。
Finch Computing、チーフアーキテクト、Franz Weckesser 氏
Dataminr
当社は、世界中のさまざまな種類のイベントについてのアラートを、さまざまな言語、さまざまな形式 (画像、動画、音声、テキストセンサー、これらすべての種類の組み合わせ) で数十万のソースから発出します。その規模を考えると、スピードとコストを最適化することは、当社のビジネスにとって絶対的に重要です。AWS Inferentia により、モデルのレイテンシーが短縮され、1 USD あたりのスループットが最大 9 倍向上しました。これにより、コストを抑えつつ、より高度な DL モデルをデプロイし、5 倍のデータ量を処理できるようにすることで、モデルの精度を高め、プラットフォーム機能を拡大できました。
Dataminr、チーフサイエンティスト兼 AI 担当シニアバイスプレジデント、Alex Jaimes 氏
Snap Inc.
当社は Snapchat の多くの側面において ML を組み込んでおり、この分野のイノベーションを探求することを重要な優先事項としています。Inferentia について聞いた後、AWS との連携を開始して Inf1/Inferentia インスタンスを採用し、パフォーマンスやコストなど、ML のデプロイを支援しました。当社はレコメンデーションモデルから始めましたが、今後は Inf1 インスタンスでさらに多くのモデルを採用することを楽しみにしています。
Snap Inc.、エンジニアリング担当副社長、Nima Khajehnouri 氏
Sprinklr
Sprinklr の AI 駆動型の統合カスタマーエクスペリエンス管理 (Unified-CXM) プラットフォームは、企業が複数のチャネルを通じたリアルタイムのカスタマーフィードバックを収集し、実用的なインサイトに変換できるようにします。これにより、プロアクティブな問題解決、製品開発の強化、コンテンツマーケティングやカスタマーサービスの改善などを実現します。Amazon EC2 Inf1 を使用することで、NLP モデルのパフォーマンスを大幅に向上させ、コンピュータビジョンモデルの 1 つのパフォーマンスを向上させることができました。今後も Amazon EC2 Inf1 を利用して、世界中のお客様により優れたサービスを提供していきたいと考えています。
Sprinklr、プロダクトエンジニアリング担当シニアバイスプレジデント、Vasant Srinivasan 氏
Autodesk
Autodesk は、Inferentia を使用して、AI を活用した仮想アシスタントである Autodesk Virtual Agent (AVA) の認知テクノロジーを進歩させています。AVA は、自然言語理解 (NLU) と DL の手法を適用して、問い合わせの背後にあるコンテキスト、意図、および意味を抽出することにより、お客様から毎月寄せられる 100,000 件以上の質問に回答しています。Inferentia のパイロット運用では、NLU モデルで G4dn よりも 4.9 倍多いスループットを得ることができました。Inferentia ベースの Inf1 インスタンスで多くのワークロードを実行できることを楽しみにしています。
Binghui Ouyang 氏、シニアデータサイエンティスト、Autodesk
Screening Eagle Technologies
地中レーダーの使用と視覚的な欠陥の検出は、通常、エキスパートである測量士が行う領域です。AWS のマイクロサービスベースのアーキテクチャにより、自動検査車や検査員が撮影した動画を処理することができます。社内で構築したモデルを従来の GPU ベースのインスタンスから Inferentia に移行することで、コストを 50% 削減することができました。さらに、G4dn GPU インスタンスとの時間を比較すると、パフォーマンスの向上を確認することができました。当社のチームは、Inferentia ベースの Inf1 インスタンスでより多くのワークロードを実行するのを楽しみにしています。
Screening Eagle Technologies、クラウドおよび AI 担当最高責任者、Jesús Hormigo 氏
NTT PC コミュニケーションズ株式会社
NTT PC コミュニケーションズは、日本のネットワークサービスおよび通信ソリューションプロバイダーであり、情報通信技術市場において新しい革新的な製品を導入する通信会社のリーダーです。
NTT PC は、高度な姿勢推定 ML モデルに基づいた動作分析 API プラットフォームサービスである AnyMotion を開発しました。フルマネージド型のコンテナオーケストレーションサービスとして、Amazon ECS を使用して Amazon EC2 Inf1 インスタンスに AnyMotion プラットフォームをデプロイしました。当社は、Amazon EC2 Inf1 に AnyMotion コンテナをデプロイすることで、現行の GPU ベースの EC2 インスタンスと比較して、全体で 4.5 倍、推論レイテンシーが 25% 短縮され、コストも 90% 削減できました。これらの優れた結果は、AnyMotion サービスの質を大規模に改善するのに役立つでしょう。
NTT PC コミュニケーションズ株式会社、ソフトウェアエンジニア、Toshiki Yanagisawa 氏
Anthem
Anthem は、米国を代表する医療保険会社の 1 つであり、数十州にわたり 4000 万人以上のメンバーの医療ニーズに対応しています。
デジタル医療プラットフォームの市場は目覚ましい速度で成長しています。この市場に関するインテリジェンスは、膨大な量のお客様の意見データと構造化されていないその性質のため、収集が困難です。当社のアプリケーションは、DL 自然言語モデル (トランスフォーマー) を介してお客様の意見から実用的なインサイトを自動化します。当社のアプリケーションは計算集約型であり、高性能な方法でデプロイする必要があります。AWS Inferentia プロセッサを搭載した Amazon EC2 Inf1 インスタンスに DL 推論ワークロードをシームレスにデプロイしました。新しい Inf1 インスタンスは、GPU ベースのインスタンスに 2 倍のスループットを提供し、推論ワークロードを合理化することができました。
Anthem、プリンシパル AI/データサイエンティスト、Numan Laanait 博士および Miro Mihaylov 博士