AWS Inferentia

深層学習推論について Amazon EC2 において最小コストで高いパフォーマンスを実現

AWS Inferentia アクセラレーターは、深層学習 (DL) 推論アプリケーションに最低コストで高いパフォーマンスを提供するために AWS が設計したものです。 

第 1 世代の AWS Inferentia アクセラレーターは、Amazon Elastic Compute Cloud (Amazon EC2) Inf1 インスタンスを駆動し、同等の Amazon EC2 インスタンスに比べて、スループットが最大 2.3 倍、推論あたりのコストが最大 70% 削減されます。Airbnb、Snap、Sprinklr、Money Forward、Amazon Alexa など多くのお客様が Inf1 インスタンスを採用し、そのパフォーマンスとコスト面でのメリットを実感しています。

AWS Inferentia2 アクセラレーターは、第 1 世代の AWS Inferentia に比べ、大幅に改良されたパフォーマンス、機能性を発揮します。Inferentia2 は、Inferentia と比較して、最大 4 倍のスループットと最大 10 倍の低レイテンシーを実現します。Inferentia2 ベースの Amazon EC2 Inf2 インスタンスは、DL 推論アプリケーションと生成系人工知能 (AI) アプリケーションにおいて、Amazon EC2 内で最も低いコストで高いパフォーマンスを実現するように設計されています。大規模言語モデル (LLM) やビジョントランスフォーマーなど、ますます複雑化するモデルを大規模にデプロイするために最適化されています。Inf2 インスタンスは、アクセラレーター間の超高速接続を備えた、スケールアウト分散推論をサポートする、Amazon EC2 で最初の推論最適化インスタンスです。Inf2 インスタンス上の複数のアクセラレーターにわたって、数千億のパラメータを持つモデルを効率的かつコスト効率よくデプロイできるようになりました。

AWS Neuron は、デベロッパーが AWS Inferentia の両方のアクセラレーターにモデルをデプロイし、自然言語処理 (NLP)/理解、言語翻訳、テキスト要約、動画および画像生成、音声認識、パーソナライズ、不正検出などのための推論アプリケーションを実行するのに役立つ SDK です。PyTorch や TensorFlow などの一般的な機械学習 (ML) フレームワークとネイティブに統合されているため、既存のコードやワークフローを引き続き使用し、Inferentia アクセラレーターで実行することができます。

AWS Inferentia への対応により Amazon Alexa の ML 推論コストが低下

メリット

高いパフォーマンスとスループット

各第 1 世代 Inferentia アクセラレーターは、4 つの第 1 世代 NeuronCore を搭載し、EC2 Inf1 インスタンスあたり最大 16 台の Inferentia アクセラレーターを装備します。各 Inferentia2 アクセラレーターは、2 つの第 2 世代 NeuronCore を搭載し、EC2 Inf2 インスタンスあたり最大 12 台の Inferentia2 アクセラレーターを装備します。Inferentia2 は、Inferentia に比べてスループットが最大 4 倍、コンピューティング性能が最大 3 倍向上しています。各 Inferentia2 アクセラレーターは、最大 190 テラ浮動小数点演算毎秒 (TFLOPS) の FP16 パフォーマンスをサポートしています。

高帯域幅メモリによる低レイテンシー

第 1 世代の Inferentia は、アクセラレーターごとに 8 GB の DDR4 メモリを搭載しており、大容量のオンチップメモリも特徴です。Inferentia2 では、アクセラレーターあたり 32 GB の HBM を搭載し、Inferentia に比べて総メモリ量を 4 倍、メモリ帯域幅を 10 倍に拡大しています。

機械学習フレームワークのネイティブサポート

AWS Neuron SDK は、PyTorch や TensorFlow などの一般的な機械学習フレームワークとネイティブに統合されています。AWS Neuron を使用すると、これらのフレームワークを使用して、最小限のコード変更で、ベンダー固有のソリューションに縛られることなく、AWS Inferentia の両方のアクセラレーターに DL モデルを最適に配置することができます。

自動キャストによる幅広いデータ型

第 1 世代の Inferentia は、FP16、BF16、INT8 のデータ型をサポートしています。Inferentia2 では、FP32、TF32、および新しい設定可能な FP8 (cFP8) データ型の追加サポートが新たに提供され、デベロッパーはパフォーマンスと精度を最適化するための柔軟性を高められるようになりました。AWS Neuron は、高精度な FP32 モデルを、精度とパフォーマンスを最適化しながら、低精度なデータ型に自動的にキャストします。オートキャストは、低精度の再トレーニングの必要性を排除することで、市場投入までの時間を短縮します。

最先端の DL 機能


Inferentia2 は、動的な入力サイズと C++ で書かれたカスタム演算子のためのハードウェア最適化を追加しています。また、ストキャスティックラウンディング (確率的な丸め処理の方法) をサポートしており、従来の丸め処理の方式と比較し高いパフォーマンスと精度を実現します。

持続可能性を考慮した構築


Inf2 インスタンスは、同等の Amazon EC2 インスタンスに比べて、1 ワット当たり最大 50% のパフォーマンス向上を実現します。これらとその基盤である Inferentia2 アクセラレーターが、DL モデルを大規模に実行するために構築されたものだからです。Inf2 インスタンスは、超大規模モデルをデプロイする際に、持続可能性の目標を達成するのに役立ちます。

AWS Neuron SDK

AWS Neuron は、デベロッパーが AWS Inferentia アクセラレーターの両方でモデルをデプロイし、AWS Trainium アクセラレーターでそれらをトレーニングするのを支援する SDK です。PyTorch や TensorFlow などの一般的な ML フレームワークとネイティブに統合されているため、既存のワークフローを引き続き使用し、わずか数行のコードで Inferentia アクセラレーターで実行することができます。

詳細はこちら » 

AWS Trainium

AWS Trainium は、AWS で高いパフォーマンスかつコスト効率の高い DL トレーニングを実現する、AWS 設計の DL トレーニングアクセラレーターです。AWS Trainium を搭載した Amazon EC2 Trn1 インスタンスは、AWS で一般的な自然言語処理モデルの DL トレーニングにおいて、最高のパフォーマンスを発揮します。Trn1 インスタンスは、同等の Amazon EC2 のインスタンスと比較して、トレーニングにかかるコストを最大 50% 削減します。

詳細はこちら » 

お客様の声

Qualtrics

Qualtrics は、エクスペリエンス管理ソフトウェアを設計および開発しています。

「Qualtrics では、お客様、従業員、ブランド、製品のエクスペリエンスギャップを解消する技術を構築することに重点を置いています。そのために、複雑なマルチタスク、マルチモーダル DL モデルを開発して、テキスト分類、シーケンスのタグ付け、談話分析、キーフレーズ抽出、トピック抽出、クラスタリング、エンドツーエンドの会話理解などの新機能をリリースしています。これらの複雑なモデルをより多くのアプリケーションで活用するにつれ、非構造化データの量は増加し、お客様に最高のエクスペリエンスを提供するためには、Inf2 インスタンスなど、これらの要求に対応できる、より性能の高い推論最適化ソリューションが必要です。新しい Inf2 インスタンスに期待しています。レイテンシーを劇的に削減しながら、より高いスループットを達成できるだけでなく、分散推論や拡張された動的入力形状サポートといった機能も導入しており、より大きく、より複雑な大規模モデルに向けて推進する際のデプロイニーズを満たすためのスケーリングに役立つからです」

Aaron Colak 氏、コア機械学習部門責任者、Qualtrics
Print

Finch Computing は、政府、金融サービス、データインテグレーターのクライアント向けに人工知能アプリケーションを提供する自然言語テクノロジー企業です。

「リアルタイム NLP に対するお客様のニーズを満たすため、大規模な本番環境のワークロードにも対応できる最新の DL モデルを開発しています。グローバルなデータフィードを処理するために、低レイテンシーのトランザクションを提供し、高いスループットを達成する必要があります。私たちはすでに多くの本番ワークロードを Inf1 インスタンスに移行し、GPU に比べて 80% のコスト削減を達成しました。現在、私たちは、書かれたテキストからより深く、よりインサイトに満ちた意味を導き出す、より大規模で複雑なモデルを開発しています。多くのお客様がこれらのインサイトにリアルタイムでアクセスする必要があります。そして Inf2 インスタンスのパフォーマンスは、Inf1 インスタンスよりも低いレイテンシーと高いスループットを実現するのに役立ちます。Inf2 のパフォーマンス向上と、動的入力サイズのサポートなどの Inf2 の新機能により、私たちはコスト効率を改善し、リアルタイムのカスタマーエクスペリエンスを向上させ、お客様がデータから新しいインサイトを得られるよう支援しています」

Franz Weckesser 氏、チーフアーキテクト、Finch Computing
Finch Computing
「当社は、世界中のさまざまな種類のイベントを、さまざまな言語、さまざまな形式 (画像、ビデオ、音声、テキストセンサー、これらすべての種類の組み合わせ) で数十万のソースから警告します。その規模を考えると、スピードとコストを最適化することは、当社のビジネスにとって絶対的に重要です。AWS Inferentia により、モデルのレイテンシーが短縮され、1 USD あたりのスループットが最大 9 倍向上しました。これにより、コストを抑えながら、より高度な DL モデルを導入し、5 倍のデータ量を処理することで、モデルの精度を向上させ、プラットフォーム機能を拡大することができました」

Alex Jaimes 氏、チーフサイエンティスト兼 AI 担当シニアバイスプレジデント、Dataminr
airbnb-case-study

2008 年にサンフランシスコで設立された Airbnb は、400 万人以上のホストが、世界のほぼすべての国で 9 億人以上のゲストを迎え入れているコミュニティマーケットプレイスです。

「Airbnb のコミュニティサポートプラットフォームは、世界中の何百万人ものゲストとホストからなるコミュニティに対して、インテリジェントでスケーラブル、かつ卓越したサービスエクスペリエンスを実現します。当社は、サポートチャットボットアプリケーションが使用する NLP モデルのパフォーマンスを向上させる方法を常に模索しています。AWS Inferentia 搭載の Amazon EC2 Inf1 インスタンスでは、PyTorch ベースの BERT モデルで、GPU ベースのインスタンスと比較して、2 倍のスループットの向上が見られました。将来的には、他のモデルやユースケースにも Inf1 インスタンスを活用したいと考えています」

Bo Zeng 氏、エンジニアリングマネージャー、Airbnb
Snap Inc
「私たちは Snapchat の多くの側面において ML を組み込んでおり、この分野のイノベーションを探求することを重要な優先事項としています。Inferentia について聞いた後、AWS との連携を開始して Inf1/Inferentia インスタンスを採用し、パフォーマンスやコストなど、ML のデプロイを支援しました。私たちは推奨モデルから始めましたが、今後は Inf1 インスタンスでさらに多くのモデルを採用することを楽しみにしています」

Nima Khajehnouri 氏、エンジニアリング担当バイスプレジデント、Snap Inc.
Sprinklr
「Sprinklr の AI を活用した統合カスタマーエクスペリエンス管理 (Unified-CXM) プラットフォームは、企業が複数のチャネルを通じたリアルタイムのカスタマーフィードバックを収集し、実用的なインサイトに変換できるようにします。これにより、積極的な問題解決、製品開発の強化、コンテンツマーケティングの改善、カスタマーサービスの向上などを実現します。Amazon EC2 Inf1 を使用することで、NLP モデルのパフォーマンスを大幅に向上させ、コンピュータビジョンモデルの 1 つのパフォーマンスを向上させることができました。今後も Amazon EC2 Inf1 を利用して、世界中のお客様により良いサービスを提供していきたいと思います」

Vasant Srinivasan 氏、プロダクトエンジニアリング担当シニアバイスプレジデント、Sprinklr
Autodesk
「Autodesk は、Inferentia を使用して、AI を活用した仮想アシスタントである Autodesk Virtual Agent (AVA) の認知テクノロジーを進歩させています。AVA は、自然言語理解 (NLU) と DL の手法を適用して、問い合わせの背後にあるコンテキスト、意図、および意味を抽出することにより、お客様から毎月寄せられる 100,000 件以上の質問に回答しています。Inferentia のパイロット運用では、NLU モデルで G4dn よりも 4.9 倍高いスループットを得ることができました。Inferentia ベースの Inf1 インスタンスで多くのワークロードを実行できることを楽しみにしています」

Binghui Ouyang 氏、シニアデータサイエンティスト、Autodesk
Screening Eagle
「地中レーダーの使用と視覚的な欠陥の検出は、通常、エキスパートである測量士が行う領域です。AWS のマイクロサービスベースのアーキテクチャにより、自動検査車や検査員が撮影した動画を処理することができます。社内で構築したモデルを従来の GPU ベースのインスタンスから Inferentia に移行することで、コストを 50% 削減することができました。さらに、G4dn GPU インスタンスとの時間を比較すると、パフォーマンスの向上を確認することができました。当社のチームは、Inferentia ベースの Inf1 インスタンスでより多くのワークロードを実行することを楽しみにしています」

Jesús Hormigo 氏、、クラウドおよび AI 担当最高責任者、Screening Eagle Technologies
NTT PC

NTT PC コミュニケーションズは、日本のネットワークサービスおよび通信ソリューションプロバイダーであり、情報通信技術市場において新しい革新的な製品を導入する通信会社のリーダーです。

「NTT PC は、高度な姿勢推定 ML モデルに基づいた動作分析 API プラットフォームサービス「AnyMotion」を開発しました。フルマネージド型のコンテナオーケストレーションサービスとして、Amazon ECS を使用して Amazon EC2 Inf1 インスタンスに AnyMotion プラットフォームをデプロイしました。当社は、Amazon EC2 Inf1 に AnyMotion コンテナをデプロイすることで、現行の GPU ベースの EC2 インスタンスと比較して、全体で 4.5 倍、推論レイテンシーが 25% 短縮され、コストも 90% 削減できました。これらの優れた結果は、AnyMotion サービスの大規模な品質向上に役立ちます」

Toshiki Yanagisawa 氏、ソフトウェアエンジニア、株式会社 NTT PC コミュニケーションズ
Anthem

Anthem は、米国を代表する医療保険会社の 1 つであり、数十州にわたり 4000 万人以上のメンバーの医療ニーズに対応しています。 

「デジタル医療プラットフォームの市場は目覚ましい速度で成長しています。この市場に関するインテリジェンスは、膨大な量のお客様の意見データと構造化されていないその性質のため、収集が困難です。当社のアプリケーションは、DL 自然言語モデル (トランスフォーマー) を介してお客様の意見から実用的なインサイトを自動化します。当社のアプリケーションは計算集約型であり、高性能な方法でデプロイする必要があります。AWS Inferentia プロセッサを搭載した Amazon EC2 Inf1 インスタンスに DL 推論ワークロードをシームレスにデプロイしました。新しい Inf1 インスタンスは、GPU ベースのインスタンスに 2 倍のスループットを提供し、推論ワークロードを合理化することができました」

Numan Laanait 博士および Miro Mihaylov 博士、プリンシパル AI/データサイエンティスト、Anthem

 

Condé Nast
「Condé Nast のグローバルポートフォリオには、 WiredVogueVanity Fair など 20 を超える主要なメディアブランドが含まれています。当社のチームは数週間でレコメンデーションエンジンを AWS Inferentia チップと統合できました。この統合により SageMaker の Inf1 インスタンスで最先端の自然言語モデルの複数のランタイム最適化が可能になります。その結果、以前にデプロイされた GPU インスタンスよりも 72% のコスト削減が見られました」

Paul Fryzel 氏、プリンシパルエンジニア、AI インフラストラクチャ、Condé Nast
Ciao
「Ciao は、従来のセキュリティカメラを、人間の目と同等の機能を持つ高性能分析カメラに進化させました。当社のアプリケーションは、災害防止を進め、クラウドベースの AI カメラソリューションを使用して環境条件を監視し、災害が発生する前に警告を発します。このような警告により、発生した状況に対して事前に対応できます。物体検出に基づいて、従業員のいない実店舗のビデオから、入店する顧客の人数を推定することによって洞察を提供することもできます。Ciao Camera は、AWS Inferentia ベースの Inf1 インスタンスを商業的に採用し、YOLOv4 を搭載した G4dn よりも 40% 優れた価格性能比を実現しました。Inf1 がその大幅な費用対効率を活用して、より多くのサービスを提供できることを楽しみにしています」

Shinji Matsumoto 氏、ソフトウェアエンジニア、Ciao Inc.
欧文ベーシックロゴ(The Asahi Shimbun)
朝日新聞は、日本でポピュラーな日刊紙の 1 つです。当社の部門の 1 つとして設立されたメディアラボは、最新の技術、特に AI を研究し、最先端の技術を新しいビジネスに結び付けることを目指しています。東京で AWS Inferentia ベースの Amazon EC2 Inf1 インスタンスがリリースされたので、これらのインスタンスで PyTorch ベースのテキスト要約 AI アプリケーションをテストしました。このアプリケーションは、大量のテキストを処理し、過去 30 年間の記事でトレーニングしたヘッドラインと要約文を生成します。Inferentia を使って、CPU ベースのインスタンスよりもコストを 1 桁削減しました。この劇的なコスト削減により、以前は経済的に実現可能ではないと考えていた極めて複雑なモデルを大規模にデプロイできるようになります」

田森秀明博士、シニアアドミニストレーター、メディアラボ、朝日新聞社
CS Disco
「CS Disco は、弁護士が弁護士のために開発した AI ソリューションのリーディングプロバイダーとしてリーガルテクノロジーを改革しています。Disco AI は、計算量が多くコストがかかる複雑な NLP モデルを活用することで、テラバイト単位のデータを効率的に処理し、レビュー時間を短縮し、レビューの精度を向上させます。Disco は、AWS Inferentia ベースの Inf1 インスタンスを現在の GPU インスタンスと比較して Disco AI の推論コストを少なくとも 35% 削減できることに気が付きました。Inf1 インスタンスを使用したこの良い結果の経験を元に、CS Disco は Inferentia への移行の機会を探っています」

Alan Lockett 氏、リサーチ担当シニアディレクター、CS Disco
Talroo
「Talroo では、ユニークな求職者を引き付けて採用できるようにするデータ主導のプラットフォームをお客様に提供しています。最高の製品とサービスをお客様に提供できるよう、常に新しいテクノロジーを模索しています。Inferentia を使って、テキストデータのコーパスからインサイトを抽出し、AI を活用した検索と照合技術を強化します。Talroo は Amazon EC2 Inf1 インスタンスを活用して、SageMaker を使用して高スループットの NLU モデルを作成しています。Talroo の最初のテストから、Amazon EC2 Inf1 インスタンスは G4dn GPU ベースのインスタンスと比較して、40% 低い推論レイテンシーと 2 倍高いスループットを提供することが示されています。これらの結果から、Talroo は AWS インフラストラクチャの一部として Amazon EC2 Inf1 インスタンスに期待しています」

Janet Hu 氏、ソフトウェアエンジニア、Talroo
DMP
ディジタルメディアプロフェッショナル (DMP) は、AI に基づく ZIA™ プラットフォームで未来を可視化します。DMP の効率的なコンピュータビジョン分類テクノロジーを使用して、状態観察、犯罪防止、事故防止などの大量のリアルタイム画像データに関するインサイトを構築します。画像セグメンテーションモデルは、GPU ベースの G4 インスタンスと比べ、AWS Inferentia ベースの Inf1 インスタンスで 4 倍高速で実行されることを認識しました。この高スループットと低コストにより、Inferentia を使用すると、車のドライブレコーダーのアプリケーションなど、AI ワークロードを大規模にデプロイすることができます」

Hiroyuki Umeda 氏、、セールスおよびマーケティンググループディレクター兼ゼネラルマネージャー、ディジタルメディアプロフェッショナル
Hotpot.ai

Hotpot.ai は、デザイナー以外のユーザーが魅力的なグラフィックを作成できるようにし、プロのデザイナーが重要なタスクを自動化できるようにします。 

「ML は当社の戦略の中核であるため、AWS Inferentia ベースの Inf1 インスタンスを試すことができて嬉しいです。Inf1 インスタンスは、当社の研究開発パイプラインに簡単に統合できることがわかりました。最も重要なのは、G4dn GPU ベースのインスタンスと比較して、印象的なパフォーマンスの向上が観察されたことです。最初のモデルで、Inf1 インスタンスは約 45% 高いスループットを実現し、推論あたりのコストをほぼ 50% 削減しました。AWS チームと緊密に連携して他のモデルを移植し、ML 推論インフラストラクチャのほとんどを AWS Inferentia に移行する予定です」

Clarence Hu 氏、創設者、Hotpot.ai
SkyWatch
「SkyWatch では、毎日、宇宙からキャプチャされる数百兆ピクセルもの地球観測データを処理します。リアルタイムでのクラウド検出と画質のスコアリングに Amazon SageMaker を使った新しい AWS Inferentia ベースの Inf1 インスタンスの採用は、迅速かつ簡単でした。デプロイ設定でインスタンスタイプを切り替えるだけで済みました。インスタンスタイプを Inferentia ベースの Inf1 に切り替えることで、パフォーマンスが 40% 向上し、全体のコストは 23% 削減しました。大成功でした。これにより、エンジニアリングのオーバーヘッドを最小限に抑えながら、高品質の衛星画像を提供し、全体的な運用コストを削減することができました。Inf1 インスタンスを使って、すべての推論エンドポイントとバッチ ML 処理を移行し、データの信頼性とカスタマーエクスペリエンスをさらに向上しようとしています」

Adler Santos 氏、エンジニアリングマネージャー、SkyWatch
株式会社マネーフォワード

株式会社マネーフォワードは、オープンでフェアな金融プラットフォームを企業や個人に提供しています。マネーフォワードのグループ会社である HiTTO は、このプラットフォームの一環として、法人のお客様の多様なニーズに対応するために、オーダーメイドの NLP モデルを用いた AI チャットボットのサービスを提供しています。

「当社の AI チャットボットサービスを Amazon EC2 Inf1 インスタンスに移行するのは簡単でした。移行は 2 か月以内に完了し、Amazon ECS を使用して Inf1 インスタンスで大規模なサービスを開始しました。Inf1 インスタンスあたり複数のモデルを提供することで、推論レイテンシーを 97% 削減し、推論コストを (同等の GPU ベースのインスタンスと比較して) 50% 以上削減しました。Inferentia ベースの Inf1 インスタンスでより多くのワークロードを実行することを楽しみにしています」

Kento Adachi 氏、テクニカルリード、CTO オフィス、株式会社マネーフォワード

AWS Inferentia を使用する Amazon のサービス

Amazon Advertising

Amazon Advertising は、あらゆる規模の企業が、ショッピングジャーニーのあらゆる段階でお客様とつながることを可能にします。テキストや画像を含む何百万もの広告が、最適なカスタマーエクスペリエンスを実現するために、毎日、管理、分類、配信されています。

「テキスト広告の処理では、PyTorch ベースの BERT モデルを AWS Inferentia ベースの Inf1 インスタンスにグローバルにデプロイしています。GPU から Inferentia に移行することで、同等のパフォーマンスで 69% のコスト削減を実現しました。AWS Inferentia 用のモデルのコンパイルとテストには、3 週間もかかりませんでした。Amazon SageMaker を使用してモデルを Inf1 インスタンスにデプロイすることで、デプロイのスケーラビリティと管理のしやすさが確保されました。コンパイルしたモデルを初めて分析したとき、AWS Inferentia でのパフォーマンスは非常に印象的で、実際にベンチマークを再実行してそれらが正しいこと確認しなければなりませんでした。 今後は、画像広告の処理モデルを Inferentia に移行していく予定です。これらのモデルでは、同等の GPU ベースのインスタンスと比較して、30% のレイテンシー低下と 71% のコスト削減がすでにベンチマークされています」

Yashal Kanungo、応用科学者、Amazon Advertising

ニュースブログを読む »
Alexa 8up logo
「AWS を基盤とした Amazon Alexa の AI と ML ベースのインテリジェンスは、現在 1 億台を超えるデバイスで利用できます。当社は、Alexa をよりスマートかつ能動的にするとともに、さらに多くの対話を可能にし、これまでよりも多くの喜びをもたらすものとなるようにするための努力を惜しまないことをお約束します。これを実現するには、応答時間と機械学習インフラストラクチャのコストを継続的に改善する必要があります。そのため、当社は、Amazon EC2 Inf1 を使用して、Alexa のテキスト読み上げ推論のレイテンシーや推論あたりのコストを削減できることに期待を寄せています。Amazon EC2 Inf1 を使用すれば、Alexa を毎月使用する何千万人ものお客様へのサービスをさらに改善することができます」

Tom Taylor、シニアバイスプレジデント、Amazon Alexa
 
「当社は、カスタマーエクスペリエンスをさらに向上させ、インフラストラクチャコストを削減するために、常に技術革新に取り組んでいます。ウェブベースの質問応答 (WBQA) ワークロードを GPU ベースの P3 インスタンスから AWS Inferentia ベースの Inf1 インスタンスに移行することで、推論コストを 60% 削減できただけでなく、エンドツーエンドのレイテンシーを 40% 以上改善し、Alexa を使ったお客様の Q&A エクスペリエンスの向上に貢献しています。TensorFlow ベースのモデルに Amazon SageMaker を使用することで、Inf1 インスタンスへの切り替えプロセスが簡単になり、管理しやすくなりました。現在、これらの WBQA ワークロードを実行するためにグローバルに Inf1 インスタンスを使用しており、コストとレイテンシーをさらに削減するために AWS Inferentia でパフォーマンスを最適化しています」

Eric Lind、ソフトウェア開発エンジニア、Alexa AI
Amazon Alexa
「Amazon Prime Video では、ライブイベントの動画品質をコンピュータビジョンの機械学習モデルを使用して解析し、Prime Video 会員に最適な視聴者エクスペリエンスを提供します。EC2 Inf1 インスタンスに画像分類機械学習モデルをデプロイしたところ、パフォーマンスが 4 倍向上し、コストも最大で 40% 削減することができました。現在、これらのコスト削減を活用して、オーディオファイルと動画ファイル間の同期のずれなど、より複雑な不具合を検出できる高度なモデルを革新および構築し、Prime Video 会員にさらに強化した視聴者エクスペリエンスを提供したいと考えています」

Victor Antonino、ソリューションアーキテクト、Amazon Prime Video
Amazon Alexa
「Amazon Rekognition は、お客様がオブジェクト、人、テキスト、アクティビティを識別するのに役立つ、シンプルで簡単な画像および動画分析アプリケーションです。Amazon Rekognition には、お客様のために毎日何十億もの画像や動画を分析できる高性能の DL インフラストラクチャが必要です。AWS Inferentia ベースの Inf1 インスタンスでは、オブジェクト分類などの Amazon Rekognition モデルを実行すると、GPU でこれらのモデルを実行する場合と比較して、レイテンシーが 8 倍低くなり、スループットが 2 倍になります。これらの結果に基づいて、Amazon Rekognition を Inf1 に移行し、お客様がより早く正確な結果を取得できるようにします」

Rajneesh Singh、ディレクター、SW エンジニアリング、Amazon Rekognition and Video

動画

AWS re:Invent 2019: アンディー ジャシーが半導体への投資と Inf1 について語る
AWS re:Invent 2019: 新しい Amazon EC2 Inf1 インスタンスによる機械学習推論と Amazon Alexa
新しい Amazon EC2 Inf1 インスタンスで機械学習アプリケーションの実行コストを削減 - AWS オンラインテックトーク
無料のアカウントにサインアップ

AWS 無料利用枠にすぐにアクセスできます。 

サインアップ 
コンソールで構築を開始する

AWS マネジメントコンソールで使用を開始する

サインイン