AWS Inferentia
AWS Inferentia アクセラレーターは、深層学習 (DL) 推論アプリケーションに最低コストで高いパフォーマンスを提供するために AWS が設計したものです。
第 1 世代の AWS Inferentia アクセラレーターは、Amazon Elastic Compute Cloud (Amazon EC2) Inf1 インスタンスを駆動し、同等の Amazon EC2 インスタンスに比べて、スループットが最大 2.3 倍、推論あたりのコストが最大 70% 削減されます。Airbnb、Snap、Sprinklr、Money Forward、Amazon Alexa など多くのお客様が Inf1 インスタンスを採用し、そのパフォーマンスとコスト面でのメリットを実感しています。
AWS Inferentia2 アクセラレーターは、第 1 世代の AWS Inferentia に比べ、大幅に改良されたパフォーマンス、機能性を発揮します。Inferentia2 は、Inferentia と比較して、最大 4 倍のスループットと最大 10 倍のレイテンシーを実現します。Inferentia2 ベースの Amazon EC2 Inf2 インスタンスは、DL 推論アプリケーションと生成系 AI アプリケーションにおいて、Amazon EC2 内で最も低いコストで高いパフォーマンスを実現するように設計されています。大規模言語モデル (LLM) やビジョン変換器など、ますます複雑化するモデルを大規模にデプロイするために最適化されています。Inf2 インスタンスは、アクセラレーター間の超高速接続を備えた、スケールアウト分散推論をサポートする、Amazon EC2 で最初の推論最適化インスタンスです。Inf2 インスタンス上の複数のアクセラレーターにわたって、数千億のパラメータを持つモデルを効率的かつコスト効率よくデプロイできるようになりました。
AWS Neuron は、デベロッパーが AWS Inferentia の両方のアクセラレーターにモデルをデプロイし、自然言語処理/理解、言語翻訳、テキスト要約、動画および画像生成、音声認識、個別化、詐欺検出などのための推論アプリケーションを実行できるようにするための SDK です。PyTorch や TensorFlow などの一般的な機械学習 (ML) フレームワークとネイティブに統合されているため、既存のコードやワークフローを引き続き使用し、Inferentia アクセラレーターで実行することができます。
メリット
高いパフォーマンスとスループット
各第 1 世代 Inferentia アクセラレーターは、4 つの第 1 世代 NeuronCore を搭載し、EC2 Inf1 インスタンスあたり最大 16 台の Inferentia アクセラレーターを装備します。各 Inferentia2 アクセラレーターは、2 つの第 2 世代 NeuronCore を搭載し、EC2 Inf2 インスタンスあたり最大 12 台の Inferentia2 アクセラレーターを装備します。Inferentia2 は、Inferentia に比べてスループットが最大 4 倍、コンピューティング性能が最大 3 倍向上しています。各 Inferentia2 アクセラレーターは、最大 190 テラ浮動小数点演算毎秒 (TFLOPS) の FP16 パフォーマンスをサポートしています。
高帯域幅メモリによる低レイテンシー
第 1 世代の Inferentia は、アクセラレーターごとに 8 GB の DDR4 メモリを搭載しており、大容量のオンチップメモリも特徴です。Inferentia2 では、アクセラレーターあたり 32 GB の HBM を搭載し、Inferentia に比べて総メモリ量を 4 倍、メモリ帯域幅を 10 倍に拡大しています。
機械学習フレームワークのネイティブサポート
AWS Neuron SDK は、PyTorch や TensorFlow などの一般的な機械学習フレームワークとネイティブに統合されています。AWS Neuron を使用すると、これらのフレームワークを使用して、最小限のコード変更で、ベンダー固有のソリューションに縛られることなく、AWS Inferentia の両方のアクセラレーターに DL モデルを最適に配置することができます。
自動キャストによる幅広いデータ型
第 1 世代の Inferentia は、FP16、BF16、INT8 のデータ型をサポートしています。Inferentia2 では、FP32、TF32、および新しい設定可能な FP8 (cFP8) データ型の追加サポートが新たに提供され、デベロッパーはパフォーマンスと精度を最適化するための柔軟性を高められるようになりました。AWS Neuron は、高精度な FP32 モデルを、精度とパフォーマンスを最適化しながら、低精度なデータ型に自動的にキャストします。オートキャストは、低精度の再トレーニングの必要性を排除することで、市場投入までの時間を短縮します。
最先端の深層学習機能
Inferentia2 は、動的な入力サイズと C++ で書かれたカスタム演算子のためのハードウェア最適化を追加しています。また、ストキャスティックラウンディング (確率的な丸め処理の方法) をサポートしており、従来の丸め処理の方式と比較し高いパフォーマンスと精度を実現します。
持続可能性を考慮した構築
Inf2 インスタンスは、同等の Amazon EC2 インスタンスに比べて、1 ワット当たり最大 50% のパフォーマンス向上を実現します。これらとその基盤である Inferentia2 アクセラレーターが、DL モデルを大規模に実行するために構築されたものだからです。Inf2 インスタンスは、超大規模モデルをデプロイする際に、持続可能性の目標を達成するのに役立ちます。
AWS Neuron SDK
AWS Neuron は、デベロッパーが AWS Inferentia アクセラレーターの両方でモデルをデプロイし、AWS Trainium アクセラレーターでそれらをトレーニングするのを支援する SDK です。PyTorch や TensorFlow などの一般的な機械学習フレームワークとネイティブに統合されているため、既存のワークフローを引き続き使用し、わずか数行のコードで Inferentia アクセラレーターで実行することができます。
AWS Trainium
AWS Trainium は、AWS で高いパフォーマンスかつコスト効率の高い DL トレーニングを実現する、AWS 設計の DL トレーニングアクセラレーターです。AWS Trainium による Amazon EC2 Trn1 インスタンスは、AWS で一般的な自然言語処理 (NLP) モデルの DL トレーニングにおいて、最高のパフォーマンスを発揮します。Trn1 インスタンスは、同等の Amazon EC2 のインスタンスと比較して、トレーニングにかかるコストを最大 50% 削減します。
お客様の声

Qualtrics は、エクスペリエンス管理ソフトウェアを設計および開発しています。
「Qualtrics では、お客様、従業員、ブランド、製品のエクスペリエンスギャップを解消する技術を構築することに重点を置いています。そのために、複雑なマルチタスク、マルチモーダル深層学習モデルを開発して、テキスト分類、シーケンスのタグ付け、談話分析、キーフレーズ抽出、トピック抽出、クラスタリング、エンドツーエンドの会話理解などの新機能をリリースしようとしているのです。これらの複雑なモデルをより多くのアプリケーションで活用するにつれ、非構造化データの量は増加し、お客様に最高のエクスペリエンスを提供するためには、Inf2 インスタンスなど、これらの要求に対応できる、より性能の高い推論最適化ソリューションが必要です。新しい Inf2 インスタンスに興奮しています。レイテンシーを劇的に削減しながら、より高いスループットを達成できるだけでなく、分散推論や拡張された動的入力形状サポートといった機能も導入しており、より大きく、より複雑な大規模モデルに向けて推進する際のデプロイニーズを満たすためのスケーリングに役立つからです」。
Qualtrics、コア機械学習部門責任者、Aaron Colak 氏

Finch Computing は、政府、金融サービス、データインテグレーターのクライアント向けに人工知能アプリケーションを提供する自然言語テクノロジー企業です。
「リアルタイムの自然言語処理に対するお客様のニーズに応えるため、大規模な本番ワークロードにスケーリングする最先端の深層学習モデルを開発しています。グローバルなデータフィードを処理するために、低レイテンシーのトランザクションを提供し、高いスループットを達成する必要があります。私たちはすでに多くの本番ワークロードを Inf1 インスタンスに移行し、GPU に比べて 80% のコスト削減を達成しました。現在、私たちはより大規模で複雑なモデルを開発し、書かれたテキストからより深く、本質を突く意味を導き出せるようにしようとしています。多くのお客様が リアルタイムでこれらのインサイトにアクセスする必要があり、Inf2 インスタンスのパフォーマンスにより、Inf1 インスタンスよりも低いレイテンシーと高いスループットを実現することができます。Inf2 のパフォーマンス向上と、動的な入力サイズのサポートなどの Inf2 の新機能により、私たちはコスト効率を改善し、リアルタイムのカスタマーエクスペリエンスを向上させ、お客様がデータから新しいインサイトを得られるよう支援しています」。
Finch Computing、チーフアーキテクト、Franz Weckesser 氏

2008 年にサンフランシスコで設立された Airbnb は、400 万人以上のホストが、世界のほぼすべての国で 9 億人以上のゲストを迎え入れているコミュニティマーケットプレイスです。
「Airbnb のコミュニティサポートプラットフォームは、世界中の何百万人ものゲストとホストからなるコミュニティに対して、インテリジェントでスケーラブル、かつ卓越したサービスエクスペリエンスを実現します。私たちは、サポートチャットボットアプリケーションが使用する自然言語処理モデルのパフォーマンスを向上させる方法を常に模索しています。AWS Inferentia による Amazon EC2 Inf1 インスタンスでは、PyTorch ベースの BERT モデルでは、GPU ベースのインスタンスと比較して、すぐに 2 倍のスループットの向上が見られました。将来的には、他のモデルやユースケースにも Inf1 インスタンスを活用したいと考えています」。
AirBnB、エンジニアリングマネージャー、Bo Zeng 氏

「私たちは Snapchat の多くの側面において機械学習 (ML) を組み込んでおり、この分野のイノベーションを探求することを重要な優先事項としています。Inferentia について聞いた後、AWS とのコラボレーションを開始して Inf1/Inferentia インスタンスを採用し、パフォーマンスやコストなど、機械学習のデプロイを支援しました。私たちは推奨モデルから始めましたが、今後は Inf1 インスタンスでさらに多くのモデルを採用することを楽しみにしています」。
Snap Inc.、エンジニアリング担当副社長、Nima Khajehnouri

「Sprinklr の AI を活用した統合カスタマーエクスペリエンス管理 (Unified-CXM) プラットフォームは、企業が複数のチャネルを通じたリアルタイムのカスタマーフィードバックを収集し、実用的なインサイトに変換できるようにします。その結果、事前の問題解決、製品開発の強化、コンテンツマーケティングの改善、顧客サービスの向上などを実現します。Amazon EC2 Inf1 を使用することで、自然言語処理 (NLP) モデルの 1 つのパフォーマンスを大幅に向上させ、コンピュータビジョンモデルのパフォーマンスを向上させることができました。今後も Amazon EC2 Inf1 を利用して、世界中のお客様により良いサービスを提供していきたいと思います」。
Sprinklr、プロダクトエンジニアリング担当シニアバイスプレジデント、Vasant Srinivasan 氏

「Autodesk は、Inferentia を使用して、AI を活用した仮想アシスタントである Autodesk Virtual Agent (AVA) の認知テクノロジーを進歩させています。AVA は、自然言語理解 (NLU) と深層学習技術を適用して、問い合わせの背後にあるコンテキスト、意図、および意味を抽出することにより、顧客の質問に毎月 100,000 件以上の回答を行っています。Inferentia をパイロットすると、NLU モデルで G4dn よりも 4.9 倍高いスループットを得ることができ、Inferentia ベースの Inf1 インスタンスで多くのワークロードを実行できることを楽しみにしています」。
Binghui Ouyang、シニアデータサイエンティスト、Autodesk
AWS Inferentia を使用する Amazon のサービス

Amazon Advertising は、あらゆる規模の企業が、ショッピングジャーニーのあらゆる段階でお客様とつながることを可能にします。テキストや画像を含む何百万もの広告が、最適なカスタマーエクスペリエンスを実現するために、毎日、管理、分類、配信されています。
「テキスト広告の処理では、PyTorch ベースの BERT モデルを AWS Inferentia ベースの Inf1 インスタンスにグローバルにデプロイしています。GPU から Inferentia に移行することで、同等のパフォーマンスで 69% のコスト削減を実現しました。AWS Inferentia 用のモデルのコンパイルとテストには、3 週間もかかりませんでした。Amazon SageMaker を使用してモデルを Inf1 インスタンスにデプロイすることで、デプロイのスケーラビリティと管理のしやすさが確保されました。コンパイルしたモデルを初めて分析したとき、AWS Inferentia でのパフォーマンスは非常に印象的で、実際にベンチマークを再実行してそれらが正しいこと確認しなければなりませんでした。 今後は、画像広告の処理モデルを Inferentia に移行していく予定です。これらのモデルでは、同等の GPU ベースのインスタンスと比較して、30% のレイテンシー低下と 71% のコスト削減がすでにベンチマークされています」。
Amazon Advertising、応用科学者、Yashal Kanungo 氏

「Amazon Web Servicesによる Amazon Alexa の AI と ML ベースのインテリジェンスは、現在 1 億台を超えるデバイスで利用できます。Alexa をよりスマートに、より能動的に、もっと会話ができて、さらに楽しく使用できるよう努力を惜しまないことをお約束します。これを実現するには、応答時間と機械学習インフラストラクチャのコストを継続的に改善していくことが必要です。そのため、Amazon EC2 Inf1 を使用して、Alexa のテキスト読み上げ推論のレイテンシーや推論あたりのコストを削減できることに期待を寄せています。Amazon EC2 Inf1 を使用すれば、Alexa を毎月使用する何千万人ものお客様へのサービスをさらに改善することができます」。
Tom Taylor 氏、シニアバイスプレジデント、Amazon Alexa
「当社は、カスタマーエクスペリエンスをさらに向上させ、インフラストラクチャコストを削減するために、常に技術革新に取り組んでいます。ウェブベースの質問応答 (WBQA) ワークロードを GPU ベースの P3 インスタンスから AWS Inferentia ベースの Inf1 インスタンスに移行することで、推論コストを 60% 削減できただけでなく、エンドツーエンドのレイテンシーを 40% 以上改善し、Alexa を使ったお客様の Q&A エクスペリエンスの向上に貢献しています。Tensorflow ベースのモデルに Amazon SageMaker を使用することで、Inf1 インスタンスへの切り替えプロセスが簡単になり、管理しやすくなりました。現在、これらの WBQA ワークロードを実行するためにグローバルに Inf1 インスタンスを使用しており、コストとレイテンシーをさらに削減するために AWS Inferentia でパフォーマンスを最適化しています」。
Eric Lind 氏、ソフトウェア開発エンジニア、Alexa AI

「Amazon Prime Video では、ライブイベントの動画品質をコンピュータビジョンの機械学習モデルを使用して解析し、Prime Video 会員に最適な視聴者エクスペリエンスを提供します。EC2 Inf1 インスタンスに画像分類機械学習モデルをデプロイしたところ、パフォーマンスが 4 倍向上し、コストも最大で 40% 削減することができました。現在、これらのコスト削減を活用して、オーディオファイルと動画ファイル間の同期のずれなど、より複雑な不具合を検出できる高度なモデルを革新および構築し、Prime Video 会員にさらに強化した視聴者エクスペリエンスを提供したいと考えています」。

「Amazon Rekognition は、顧客がオブジェクト、人、テキスト、アクティビティを識別するのに役立つ、シンプルで簡単な画像および動画分析アプリケーションです。Amazon Rekognition には、お客様のために毎日何十億もの画像や動画を分析できる高性能の深層学習インフラストラクチャが必要です。AWS Inferentia ベースの Inf1 インスタンスでは、オブジェクト分類などの Rekognition モデルを実行すると、GPU でこれらのモデルを実行する場合と比較して、レイテンシーが 8 倍低くなり、スループットが 2 倍になります。これらの結果に基づいて、Rekognition を Inf1 に移行し、お客様がより早く正確な結果を取得できるようにします」。
ブログと記事
Patrick Moorhead、2020 年 5 月 13 日
James Hamilton、2018 年 11 月 28 日