さまざまな業界の企業が、ビジネスイノベーションを推進し、カスタマーエクスペリエンスを向上させ、プロセスを改善するために、AI を活用した変革に目を向けています。AI アプリケーションを強化する機械学習モデルはますます複雑化しており、その結果、基礎となるコンピューティングインフラストラクチャのコストが増加しています。ML アプリケーションの開発と実行にかかるインフラストラクチャ支出の最大 90% は、多くの場合、推論に費やされます。お客様は、ML アプリケーションを本稼働環境にデプロイするための費用対効果の高いインフラストラクチャソリューションを求めています。
Amazon EC2 Inf1 インスタンスは、クラウドで最も低いコストで高性能 ML 推論を提供します。これらのインスタンスでは、同等の現行世代の GPU ベースの Amazon EC2 インスタンスと比較して、スループットが最大 2.3 倍高く、推論あたりのコストが最大 70% 低くなっています。Inf1 インスタンスは機械学習推論アプリケーションをサポートするため、1 から構築されました。同社は、AWS が設計開発した高機能の機械学習推論チップである AWS Inferentia チップを最大 16 個搭載しています。加えて Inf1 インスタンスには、第 2 世代 Intel® Xeon® スケーラブルプロセッサと最大 100 Gbps ネットワーキングが含まれ、高いスループットの推論を可能にしています。
お客様は、Inf1 インスタンスを使用して、検索レコメンデーション、コンピュータビジョン、音声認識、自然言語処理、パーソナライズ、不正検出といった大規模な機械学習推論アプリケーションを、クラウドで最小のコストで実行できます。
デベロッパーは、TensorFlow、PyTorch、MXNet などの人気の機械学習フレームワークと統合した AWS Neuron SDK を使って、Inf1 インスタンスに機械学習モデルをデプロイできます。 デベロッパーは引き続き同じ ML ワークフローを使用し、最小限のコード変更で、かつ、ベンダー固有のソリューションに縛られることなく、シームレスにアプリケーションを Inf1 インスタンスに移行できます。
Amazon SageMaker、Neuron SDK で事前設定された AWS Deep Learning AMI、またはコンテナ化された ML アプリケーション用の Amazon ECS もしくは Amazon EKS を使用して、Inf1 インスタンスの使用を簡単に開始できます。
利点
推論作業あたり最大 70% のコスト削減
Inf1 を使用すると、デベロッパーは、クラウドでの推論あたりのコストを最小限に抑えて、機械学習の本稼働用デプロイのコストを大幅に削減できます。Inf1 インスタンスの低いインスタンスコストと高いスループットの組み合わせにより、同等の現行世代の GPU ベースの EC2 インスタンスよりも最大 70% 低い推論あたりのコストを実現します。
使いやすさとコードの移植性
Neuron SDK は、TensorFlow、PyTorch、MXNet などの一般的な機械学習フレームワークと統合されています。デベロッパーは引き続き同じ ML ワークフローを使用し、最小限のコード変更でアプリケーションを Inf1 インスタンスにシームレスに移行できます。これにより、ベンダー固有のソリューションに縛られることなく、任意の機械学習フレームワーク、および要件に最適なコンピューティングプラットフォームを自由に使用し、最新のテクノロジーを活用することができます。
最大 2.3 倍のスループット
Inf1 インスタンスは、同等の現行世代の GPU ベースの Amazon EC2 インスタンスよりも最大 2.3 倍高いスループットを提供します。 Inf1 インスタンスを強化する AWS Inferentia チップは、小さなバッチサイズでの推論パフォーマンス向けに最適化されているため、リアルタイムアプリケーションでのスループットを最大化し、レイテンシー要件を満たすことができます。
極めて低いレイテンシー
AWS Inferentia チップには、機械学習モデルをチップ自体に直接キャッシュできる大きなオンチップメモリが装備されています。NeuronCore Pipeline などの機能を使用してモデルをデプロイすると、外部のメモリリソースにアクセスする必要がなくなります。Inf1 インスタンスを使用すると、帯域幅に影響を与えることなく、ほぼリアルタイムのレイテンシーでリアルタイムの推論アプリケーションをデプロイできます。
幅広い機械学習モデルとデータ型へのサポート
Inf1 インスタンスは、画像認識/分類のための SSD、VGG、ResNext や、自然言語処理のための Transformer や BERT など、一般的に使用されている多くの機械学習モデル アーキテクチャをサポートしています。さらに、Neuron での HuggingFace モデルリポジトリのサポートにより、お客様は、コードを 1 行変更するだけで、事前トレーニング済みモデル (または微調整済みモデル) を使用して簡単に推論をコンパイルおよび実行できます。複合精度の BF16 および FP16 といった複数のデータ型もサポートし、幅広いモデルとパフォーマンスのニーズに対応しています。
特徴
AWS Inferentia の搭載
AWS Inferentia は AWS が設計した機械学習推論チップで、低コストで高いパフォーマンスを実現します。AWS Inferentia の各チップは最大 128 TOPS(1 秒あたり数兆回の演算数)のパフォーマンスを提供し、FP16、BF16、INT8 データ型をサポートしています。AWS Inferentia チップは、大規模モデルのキャッシュに使用できる大量のオンチップメモリも備えています。これは、頻繁なメモリアクセスを必要とするモデルに特に役立ちます。
AWS Neuron を使用して一般的な ML フレームワークでデプロイする
AWS Inferentia には、コンパイラ、ランタイムドライバー、プロファイリングツールで構成される AWS Neuron ソフトウェア開発キット (SDK) が付随します。TensorFlow、PyTorch、MXNet などの一般的なフレームワークで作成およびトレーニングした複雑なニューラルネットモデルのデプロイを、Inf1 インスタンスを使用して実行できます。Neuron の NeuronCore Pipeline を使用することで、高速の物理的なチップ間相互接続を使って、大規模モデルを分割して複数の Inferentia チップで実行することができ、高いスループットかつ低コストの推論を実現できます。
高いパフォーマンスのネットワークとストレージ
Inf1 インスタンスは、高速ネットワークへのアクセスを必要とするアプリケーションに、最大 100 Gbps のネットワークスループットを提供します。次世代の Elastic Network Adapter (ENA) と NVM Express (NVMe) テクノロジーにより、Inf1 インスタンスではネットワーキングと Amazon Elastic Block Store (Amazon EBS) 向けに高スループットで低レイテンシーのインターフェイスを利用できます。
AWS Nitro System 上での構築
AWS Nitro System は構築ブロックを豊富に取り揃え、従来の仮想化機能の多くを専用のハードウェアとソフトウェアにオフロードして、仮想化のオーバーヘッドを削減しながら、高いパフォーマンス、可用性、セキュリティを実現します。
仕組み

お客様の声

2008 年にサンフランシスコで設立された Airbnb は、400 万人以上のホストが、世界のほぼすべての国で 9 億人以上のゲストを迎え入れているコミュニティマーケットプレイスです。
「Airbnb のコミュニティサポートプラットフォームは、世界中の何百万人ものゲストとホストからなるコミュニティに対して、インテリジェントでスケーラブル、かつ卓越したサービスエクスペリエンスを実現します。私たちは、サポートチャットボットアプリケーションが使用する自然言語処理モデルのパフォーマンスを向上させる方法を常に模索しています。AWS Inferentia による Amazon EC2 Inf1 インスタンスでは、PyTorch ベースの BERT モデルでは、GPU ベースのインスタンスと比較して、すぐに 2 倍のスループットの向上が見られました。将来的には、他のモデルやユースケースにも Inf1 インスタンスを活用したいと考えています」。
AirBnB、エンジニアリングマネージャー、Bo Zeng 氏

「私たちは Snapchat の多くの側面において機械学習 (ML) を組み込んでおり、この分野のイノベーションを探求することを重要な優先事項としています。Inferentia について聞いた後、AWS とのコラボレーションを開始して Inf1/Inferentia インスタンスを採用し、パフォーマンスやコストなど、機械学習のデプロイを支援しました。私たちは推奨モデルから始めましたが、今後は Inf1 インスタンスでさらに多くのモデルを採用することを楽しみにしています」
Snap Inc.、エンジニアリング担当 VP、Nima Khajehnouri

「Sprinklr の AI を活用した統合カスタマーエクスペリエンス管理 (Unified-CXM) プラットフォームは、企業が複数のチャネルを通じたリアルタイムのカスタマーフィードバックを収集し、実用的なインサイトに変換できるようにします。その結果、事前の問題解決、製品開発の強化、コンテンツマーケティングの改善、顧客サービスの向上などを実現します。Amazon EC2 Inf1 を使用することで、自然言語処理 (NLP) モデルの 1 つのパフォーマンスを大幅に向上させ、コンピュータビジョンモデルのパフォーマンスを向上させることができました。今後も Amazon EC2 Inf1 を利用して、世界中のお客様により良いサービスを提供していきたいと思います」。
Sprinklr、プロダクトエンジニアリング担当シニアバイスプレジデント、Vasant Srinivasan 氏

「私たちの最先端の自然言語処理 (NLP) 製品である Finch for Text は、膨大な量のテキストから複数種類のエンティティを抽出、曖昧さ解消、エンリッチする能力をユーザーに提供します。Finch for Text は、グローバルなデータフィードで低レイテンシーのエンリッチメントをクライアントに提供するために、膨大なコンピューティングリソースを必要とします。現在、当社の PyTorch NLP、翻訳、およびエンティティ語義曖昧性解消回避モデルで、AWS Inf1 インスタンスを使用しています。私たちは、推論スピードとパフォーマンスを維持しながら、最小限の最適化で推論コストを 80% 以上 (GPU の場合) 削減することができました。この改善により、私たちのお客様は、ストリーミングデータフィード上で、グローバルスケールでフランス語、スペイン語、ドイツ語、オランダ語のテキストをリアルタイムにエンリッチすることができます。これは、私たちの金融サービス、データアグリゲータ、公共部門のお客様にとって非常に重要なことです」。
Finch Computing、最高技術責任者、Scott Lightner 氏

「Autodesk は、Inferentia を使用して、AI を活用した仮想アシスタントである Autodesk Virtual Agent (AVA) の認知テクノロジーを進歩させています。AVA は、自然言語理解 (NLU) と深層学習技術を適用して、問い合わせの背後にあるコンテキスト、意図、および意味を抽出することにより、顧客の質問に毎月 100,000 件以上の回答を行っています。Inferentia をパイロットすると、NLU モデルで G4dn よりも 4.9 倍高いスループットを得ることができ、Inferentia ベースの Inf1 インスタンスで多くのワークロードを実行できることを楽しみにしています」
Autodesk、シニアデータサイエンティスト、Binghui Ouyang 氏
Amazon EC2 Inf1 インスタンスを使用した Amazon サービス

Amazon Advertising は、あらゆる規模の企業が、ショッピングジャーニーのあらゆる段階でお客様とつながることを可能にします。テキストや画像を含む何百万もの広告が、最適なカスタマーエクスペリエンスを実現するために、毎日、管理、分類、配信されています。
「テキスト広告の処理では、PyTorch ベースの BERT モデルを AWS Inferentia ベースの Inf1 インスタンスにグローバルにデプロイしています。GPU から Inferentia に移行することで、同等のパフォーマンスで 69% のコスト削減を実現しました。AWS Inferentia 用のモデルのコンパイルとテストには、3 週間もかかりませんでした。Amazon SageMaker を使用してモデルを Inf1 インスタンスにデプロイすることで、デプロイのスケーラビリティと管理のしやすさが確保されました。コンパイルしたモデルを初めて分析したとき、AWS Inferentia でのパフォーマンスは非常に印象的で、実際にベンチマークを再実行してそれらが正しいこと確認しなければなりませんでした。 今後は、画像広告の処理モデルを Inferentia に移行していく予定です。これらのモデルでは、同等の GPU ベースのインスタンスと比較して、30% のレイテンシー低下と 71% のコスト削減がすでにベンチマークされています」。
Amazon Advertising、応用科学者、Yashal Kanungo 氏

「Amazon Web Servicesによる Amazon Alexa の AI と ML ベースのインテリジェンスは、現在 1 億台を超えるデバイスで利用できます。Alexa をよりスマートに、より能動的に、もっと会話ができて、さらに楽しく使用できるよう努力を惜しまないことをお約束します。これを実現するには、応答時間と機械学習インフラストラクチャのコストを継続的に改善していくことが必要です。そのため、Amazon EC2 Inf1 を使用して、Alexa のテキスト読み上げ推論のレイテンシーや推論あたりのコストを削減できることに期待を寄せています。Amazon EC2 Inf1 を使用すれば、Alexa を毎月使用する何千万人ものお客様へのサービスをさらに改善することができます」。
Tom Taylor 氏、シニアバイスプレジデント、Amazon Alexa
「当社は、カスタマーエクスペリエンスをさらに向上させ、インフラストラクチャコストを削減するために、常に技術革新に取り組んでいます。ウェブベースの質問応答 (WBQA) ワークロードを GPU ベースの P3 インスタンスから AWS Inferentia ベースの Inf1 インスタンスに移行することで、推論コストを 60% 削減できただけでなく、エンドツーエンドのレイテンシーを 40% 以上改善し、Alexa を使ったお客様の Q&A エクスペリエンスの向上に貢献しています。Tensorflow ベースのモデルに Amazon SageMaker を使用することで、Inf1 インスタンスへの切り替えプロセスが簡単になり、管理しやすくなりました。現在、これらの WBQA ワークロードを実行するためにグローバルに Inf1 インスタンスを使用しており、コストとレイテンシーをさらに削減するために AWS Inferentia でパフォーマンスを最適化しています」。
Eric Lind 氏、ソフトウェア開発エンジニア、Alexa AI

「Amazon Prime Video では、ライブイベントの動画品質をコンピュータビジョンの機械学習モデルを使用して解析し、Prime Video 会員に最適な視聴者エクスペリエンスを提供します。EC2 Inf1 インスタンスに画像分類機械学習モデルをデプロイしたところ、パフォーマンスが 4 倍向上し、コストも最大で 40% 削減することができました。現在、これらのコスト削減を活用して、オーディオファイルと動画ファイル間の同期のずれなど、より複雑な不具合を検出できる高度なモデルを革新および構築し、Prime Video 会員にさらに強化した視聴者エクスペリエンスを提供したいと考えています」。

「Amazon Rekognition は、顧客がオブジェクト、人、テキスト、アクティビティを識別するのに役立つ、シンプルで簡単な画像および動画分析アプリケーションです。Amazon Rekognition には、お客様のために毎日何十億もの画像や動画を分析できる高性能の深層学習インフラストラクチャが必要です。AWS Inferentia ベースの Inf1 インスタンスでは、オブジェクト分類などの Rekognition モデルを実行すると、GPU でこれらのモデルを実行する場合と比較して、レイテンシーが 8 倍低くなり、スループットが 2 倍になります。これらの結果に基づいて、Rekognition を Inf1 に移行し、お客様がより早く正確な結果を取得できるようにします」。
料金
* ここでは、米国東部 (バージニア北部) の AWS リージョンでご利用いただいた場合の料金を示しています。1 年間または 3 年間のリザーブドインスタンスの料金は、「一部前払い」オプション、あるいは一部前払いオプションのないインスタンスの「前払いなし」オプションに対応します。
Amazon EC2 Inf1 インスタンスは、米国東部 (バージニア北部)、米国西部 (オレゴン) の AWS リージョンにおいて、オンデマンドインスタンス、リザーブドインスタンス、またはスポットインスタンスとしてご利用いただけます。
開始方法
Amazon SageMaker の使用
Amazon SageMaker を使用すれば、トレーニング済みの機械学習モデルを簡単にコンパイルして Amazon Inf1 インスタンスの本番環境にデプロイできるため、低レイテンシーでリアルタイム予測の生成を開始できます。AWS Inferentia 向けコンパイラの AWS Neuron は、Amazon SageMaker Neo と統合しており、トレーニング済みの機械学習モデルをコンパイルして、Inf1 インスタンスで最適に実行できます。Amazon SageMaker を使用すれば、複数のアベイラビリティーゾーンに分散した Inf1 インスタンスの自動スケーリングクラスターでモデルを簡単に実行し、高いパフォーマンスと可用性の両方のリアルタイム推論を実現できます。Amazon SageMaker を Github の例と共に使用して Inf1 にデプロイする方法を学びましょう。
AWS 深層学習 AMI の使用
AWS 深層学習 AMI (DLAMI) では、機械学習の専門家と研究者がクラウド上であらゆる規模の深層学習を加速させるためのインフラストラクチャとツールを提供しています。AWS Neuron SDK は AWS 深層学習 AMI にプリインストールされており、機械学習モデルをコンパイルして Inf1 インスタンスで最適に実行します。使用開始のプロセスについての詳細は、AMI 選択ガイドやその他の深層学習リソースをご覧ください。Neuron で DLAMI を使用する方法については、AWS DLAMI 入門ガイドをご参照ください。
Deep Learning Containers の使用
デベロッパーは、完全マネージド型の Kubernetes サービスである Amazon Elastic Kubernetes Service (EKS) と、Amazon の完全マネージドコンテナオーケストレーションサービスの Amazon Elastic Container Service (ECS) に Inf1 インスタンスをデプロイできるようになりました。Amazon EKS または Amazon ECS で Inf1 の使用を開始する詳細についてご覧ください。Inf1 インスタンスでのコンテナ実行の詳細については、コンテナツールのチュートリアルのページをご参照ください。Neuron は、AWS DL コンテナに事前インストールされた状態でも利用できます。
ブログと記事
高性能で低コストの機械学習インフラストラクチャがクラウドのイノベーションを加速
MIT Technology Review Insights、2021 年 11 月 1 日
Amazon SageMaker を使用したコンピュータビジョン推論に最適な AI アクセラレーターとモデルコンパイルを選択する
Davide Galliteli と Hasan Poonawala、2021 年 10 月 19 日
MIT Technology Review Insights、2021 年 10 月 15 日
AWS Inferentia を使用して Amazon EKS で 3,000 の深層学習モデルを 1 時間あたり 50 USD 未満で提供
by Alex Iankoulski、Joshua Correa、Mahadevan Balasubramaniam、Sundar Ranganatha、2021 年 9 月 30 日
AWS Inferentia ですぐに使用できる PyTorch 自然言語処理アプリケーションで 12 倍のスループットと最小のレイテンシーを実現
Fabio Nonato de Paula、Mahadevan Balasubramaniam、2021 年 5 月 4 日
AWS Inferentia を使用して、Autodesk Ava Chatbot の PyTorch NLP モデルのパフォーマンスを 4.9 倍向上させた方法
Binghui Ouyang、2021 年 4 月 7 日
Amazon ECS が EC2 Inf1 インスタンスのサポートを開始
Julien Simon、2020 年 8 月 14 日
Alexa の大部分をより高速で費用効果の高い Amazon EC2 Inf1 インスタンスで実行
Sébastien Stormacq、2020 年 11 月 12 日
Amazon SageMaker での Inf1 インスタンスの可用性により、高性能で費用対効果の高い機械学習推論の提供をお知らせ
Julien Simon、2020 年 4 月 22 日
Amazon ECS が EC2 Inf1 インスタンスのサポートを開始
Julien Simon、2020 年 8 月 14 日
AWS Inferentia ベースの Inf1 インスタンスに TensorFlow OpenPose をデプロイして、価格パフォーマンスを大幅に改善
Fabio Nonato De Paula および Haichen Li による投稿 (2020/7/22)
Amazon EKS が EC2 Inf1 インスタンスのサポートを開始
Julien Simon、2020 年 6 月 15 日
ブログ: Amazon EC2 アップデート – 高性能で費用対効果の高い推論のための AWS Inferentia チップを備えた Inf1 インスタンス
Jeff Barr、2019 年 3 月 12 日
オブジェクト検出モデルを大規模に実行するクラス最高のパフォーマンスを備えた AWS Inferentia が 11 の AWS リージョンで利用可能に
Gadi Hutt、2020 年 9 月 28 日