AWS Inferentia

深層学習推論について Amazon EC2 において最小コストで高いパフォーマンスを実現

AWS Inferentia アクセラレーターは、深層学習 (DL) 推論アプリケーションに最低コストで高いパフォーマンスを提供するために AWS が設計したものです。 

第 1 世代の AWS Inferentia アクセラレーターは、Amazon Elastic Compute Cloud (Amazon EC2) Inf1 インスタンスを駆動し、同等の GPU ベースの Amazon EC2 インスタンスに比べて、スループットが最大 2.3 倍、推論あたりのコストが最大 70% 削減されます。Airbnb、Snap、Sprinklr、Money Forward、Amazon Alexa など多くのお客様が Inf1 インスタンスを採用し、そのパフォーマンスとコスト面でのメリットを実感しています。

AWS Inferentia2 アクセラレーターは、第 1 世代の AWS Inferentia に比べ、大幅に改良されたパフォーマンス、機能性を発揮します。Inferentia2 は、Inferentia と比較して、最大 4 倍のスループットと最大 10 倍のレイテンシーを実現します。Inferentia2 ベースの Amazon EC2 Inf2 インスタンスは、DL 推論アプリケーションにおいて、Amazon EC2 内で最も低いコストで高いパフォーマンスを実現するように設計されています。大規模言語モデル (LLM) やビジョン変換器など、ますます複雑化するモデルを大規模にデプロイするために最適化されています。Inf2 インスタンスは、アクセラレーター間の超高速接続によりスケールアウト分散推論をサポートする、Amazon EC2 における最初の推論最適化インスタンスです。1 台の Inf2 インスタンスで、複数のアクセラレーターにまたがる推論用の 175B パラメータモデルを効率的にデプロイすることが可能になりました。Inf2 インスタンスは、より小さなモデルに対して Inf1 よりも優れた料金パフォーマンスを提供します。

AWS Neuron は、デベロッパーが AWS Inferentia の両方のアクセラレーターにモデルをデプロイし、自然言語処理/理解、言語翻訳、動画および画像生成、音声認識、個別化、詐欺検出などのための推論アプリケーションを実行できるようにするための SDK です。PyTorch や TensorFlow などの一般的な機械学習 (ML) フレームワークとネイティブに統合されているため、既存のワークフローを引き続き使用し、わずか数行のコードで Inferentia アクセラレーターで実行することができます。

AWS Inferentia への対応により Amazon Alexa の ML 推論コストが低下

メリット

高いパフォーマンスとスループット

各第 1 世代 Inferentia アクセラレーターは、4 つの第 1 世代 NeuronCore を搭載し、EC2 Inf1 インスタンスあたり最大 16 台の Inferentia アクセラレーターを装備します。各 Inferentia2 アクセラレーターは、2 つの第 2 世代 NeuronCore を搭載し、EC2 Inf2 インスタンスあたり最大 12 台の Inferentia2 アクセラレーターを装備します。Inferentia2 は、Inferentia に比べてスループットが最大 4 倍、コンピューティング性能が最大 3 倍向上しています。各 Inferentia2 アクセラレーターは、最大 190 テラ浮動小数点演算毎秒 (TFLOPS) の FP16 パフォーマンスをサポートしています。

高帯域幅メモリによる低レイテンシー

第 1 世代の Inferentia は、アクセラレーターごとに 8 GB の DDR4 メモリを搭載しており、大容量のオンチップメモリも特徴です。Inferentia2 では、アクセラレーターあたり 32 GB の HBM2e を搭載し、Inferentia に比べて総メモリ量を 4 倍、メモリ帯域幅を 10 倍に拡大しています。

機械学習フレームワークのネイティブサポート

AWS Neuron SDK は、PyTorch や TensorFlow などの一般的な機械学習フレームワークとネイティブに統合されています。AWS Neuron を使用すると、これらのフレームワークを使用して、最小限のコード変更で、ベンダー固有のソリューションに縛られることなく、AWS Inferentia の両方のアクセラレーターに DL モデルを最適に配置することができます。

自動キャストによる幅広いデータ型

第 1 世代の Inferentia は、FP16、BF16、INT8 のデータ型をサポートしています。Inferentia2 では、FP32、TF32、および新しい設定可能な FP8 (cFP8) データ型の追加サポートが新たに提供され、デベロッパーはパフォーマンスと精度を最適化するための柔軟性を高められるようになりました。AWS Neuron は、高精度な FP32 モデルを、精度とパフォーマンスを最適化しながら、低精度なデータ型に自動的にキャストします。オートキャストは、低精度の再トレーニングの必要性を排除することで、市場投入までの時間を短縮します。

最先端の深層学習機能


Inferentia2 は、動的な入力サイズと C++ で書かれたカスタム演算子のためのハードウェア最適化を追加しています。また、ストキャスティックラウンディング (確率的な丸め処理の方法) をサポートしており、従来の丸め処理の方式と比較し高いパフォーマンスと精度を実現します。

持続可能性を考慮した構築


Inf2 インスタンスは、Amazon EC2 の GPU ベースのインスタンスと比較して、1 ワットあたり最大 45% のパフォーマンス向上を実現します。これは、これらのインスタンスとその基盤である Inferentia2 アクセラレーターが、DL モデルを大規模に実行するために構築されたものであるからです。Inf2 インスタンスは、超大規模モデルをデプロイする際に、持続可能性の目標を達成するのに役立ちます。

AWS Neuron SDK

AWS Neuron は、デベロッパーが AWS Inferentia アクセラレーターの両方でモデルをデプロイし、AWS Trainium アクセラレーターでそれらをトレーニングするのを支援する SDK です。PyTorch や TensorFlow などの一般的な機械学習フレームワークとネイティブに統合されているため、既存のワークフローを引き続き使用し、わずか数行のコードで Inferentia アクセラレーターで実行することができます。

詳細はこちら » 

AWS Trainium

AWS Trainium は、AWS で高いパフォーマンスかつコスト効率の高い DL トレーニングを実現する、AWS 設計の DL トレーニングアクセラレーターです。AWS Trainium による Amazon EC2 Trn1 インスタンスは、AWS で一般的な自然言語処理 (NLP) モデルの深層学習トレーニングにおいて、最高のパフォーマンスを発揮します。Trn1 インスタンスは、同等の GPU ベースのインスタンスと比較して、トレーニングにかかるコストを最大 50% 削減します。

詳細はこちら » 

お客様の声

Qualtrics

Qualtrics は、エクスペリエンス管理ソフトウェアを設計および開発しています。

「Qualtrics は、顧客、従業員、ブランド、製品のエクスペリエンスギャップを解消する技術を構築することに重点を置いています。そのために、複雑なマルチタスク、マルチモーダル深層学習モデルを開発し、テキスト分類、シーケンスタギング、談話分析、キーフレーズ抽出、トピック抽出、クラスタリング、エンドツーエンドの会話理解などの新機能を立ち上げようとしているのです。これらの複雑なモデルをより多くのアプリケーションで活用するにつれ、非構造化データの量は増加し、お客様に最高のエクスペリエンスを提供するためには、Inf2 インスタンスのような、これらの要求に対応できる、より性能の高い推論最適化ソリューションが必要です。私たちは、新しい Inf2 インスタンスにワクワクしています。この新しいインスタンスは、レイテンシーを劇的に削減しながら、より高いスループットを達成できるだけでなく、分散推論や動的な入力形状サポートの強化といった機能を導入しており、大きく複雑な大規模モデルに向けて推進する際のデプロイニーズを満たすためのスケーリングに役立つためです」。

Qualtrics、コア機械学習部門責任者、Aaron Colak 氏

Print

Finch Computing は、政府機関、金融サービス、データインテグレーターのクライアント向けに人工知能アプリケーションを提供する自然言語テクノロジー企業です。

「リアルタイムの自然言語処理に対する顧客のニーズに応えるため、大規模なプロダクションワークロードにスケールする最先端の深層学習モデルを開発しています。グローバルなデータフィードを処理するために、低レイテンシーのトランザクションを提供し、高いスループットを達成する必要があります。私たちは既に多くのプロダクションワークロードを Inf1 インスタンスに移行し、GPU に比べて 80% のコスト削減を達成しました。現在、私たちはより大規模で複雑なモデルを開発し、文章からより深く、よりインサイトに富んだ意味合いを導き出そうとしています。多くのお客様が リアルタイムでこれらのインサイトにアクセスする必要があり、Inf2 インスタンスのパフォーマンスは、Inf1 インスタンスより低いレイテンシーと高いスループットを実現するのに役立ちます。Inf2 のパフォーマンス向上と、動的な入力サイズのサポートなどの Inf2 の新機能により、私たちはコスト効率を改善し、リアルタイムのカスタマーエクスペリエンスを向上させ、顧客がデータから新しいインサイトを得られるよう支援しています」。

Finch Computing、チーフアーキテクト、Franz Weckesser 氏

airbnb-case-study

2008 年にサンフランシスコで設立された Airbnb は、400 万人以上のホストが、世界のほぼすべての国で 9 億人以上のゲストを迎え入れているコミュニティマーケットプレイスです。

「Airbnb のコミュニティサポートプラットフォームは、世界中の何百万人ものゲストとホストからなるコミュニティに対して、インテリジェントでスケーラブル、かつ卓越したサービスエクスペリエンスを実現します。私たちは、サポートチャットボットアプリケーションが使用する自然言語処理モデルのパフォーマンスを向上させる方法を常に模索しています。AWS Inferentia による Amazon EC2 Inf1 インスタンスでは、PyTorch ベースの BERT モデルでは、GPU ベースのインスタンスと比較して、すぐに 2 倍のスループットの向上が見られました。将来的には、他のモデルやユースケースにも Inf1 インスタンスを活用したいと考えています」。

AirBnB、エンジニアリングマネージャー、Bo Zeng 氏

Snap Inc
「私たちは Snapchat の多くの側面において機械学習 (ML) を組み込んでおり、この分野のイノベーションを探求することを重要な優先事項としています。Inferentia について聞いた後、AWS とのコラボレーションを開始して Inf1/Inferentia インスタンスを採用し、パフォーマンスやコストなど、機械学習のデプロイを支援しました。私たちは推奨モデルから始めましたが、今後は Inf1 インスタンスでさらに多くのモデルを採用することを楽しみにしています」

Snap Inc.、エンジニアリング担当 VP、Nima Khajehnouri

Sprinklr
「Sprinklr の AI を活用した統合カスタマーエクスペリエンス管理 (Unified-CXM) プラットフォームは、企業が複数のチャネルを通じたリアルタイムのカスタマーフィードバックを収集し、実用的なインサイトに変換できるようにします。その結果、事前の問題解決、製品開発の強化、コンテンツマーケティングの改善、顧客サービスの向上などを実現します。Amazon EC2 Inf1 を使用することで、自然言語処理 (NLP) モデルの 1 つのパフォーマンスを大幅に向上させ、コンピュータビジョンモデルのパフォーマンスを向上させることができました。今後も Amazon EC2 Inf1 を利用して、世界中のお客様により良いサービスを提供していきたいと思います」。

Sprinklr、プロダクトエンジニアリング担当シニアバイスプレジデント、Vasant Srinivasan 氏

Autodesk
「Autodesk は、Inferentia を使用して、AI を活用した仮想アシスタントである Autodesk Virtual Agent (AVA) の認知テクノロジーを進歩させています。AVA は、自然言語理解 (NLU) と深層学習技術を適用して、問い合わせの背後にあるコンテキスト、意図、および意味を抽出することにより、顧客の質問に毎月 100,000 件以上の回答を行っています。Inferentia をパイロットすると、NLU モデルで G4dn よりも 4.9 倍高いスループットを得ることができ、Inferentia ベースの Inf1 インスタンスで多くのワークロードを実行できることを楽しみにしています」

Autodesk、シニアデータサイエンティスト、Binghui Ouyang 氏

Screening Eagle
「地中レーダーの使用と視覚的な欠陥の検出は、通常、エキスパートである測量士が行う領域です。AWS のマイクロサービスベースのアーキテクチャにより、自動検査車や検査員が撮影した動画を処理することができます。自社で構築したモデルを従来の GPU ベースのインスタンスから Inferentia に移行することで、コストを 50% 削減することができました。さらに、G4dn GPU インスタンスとの時間を比較すると、パフォーマンスの向上を確認することができました。私たちのチームは、Inferentia ベースの Inf1 インスタンスでより多くのワークロードを実行することを楽しみにしています」。

Screening Eagle Technologies、クラウドおよび AI 担当最高責任者、Jesús Hormigo 氏

NTT PC

NTTPC コミュニケーションズは、日本のネットワークサービスおよび通信ソリューションプロバイダーであり、情報通信技術市場において新しい革新的な製品を導入する通信事業者のリーダーです。

「NTTPC は、高度な姿勢推定マシンラーニングモデルに基づいた動作分析 API プラットフォームサービス「AnyMotion」を開発しました。NTTPC は、Amazon Elastic Container Service (ECS) を利用して、Amazon EC2 Inf1 インスタンスに AnyMotion プラットフォームをデプロイし、フルマネージドコンテナオーケストレーションサービスを実現しました。NTTPC は、Amazon EC2 Inf1 に AnyMotion コンテナをデプロイすることで、現行の GPU ベースの EC2 インスタンスと比較して、全体で 4.5 倍、推論レイテンシーが 25% 短縮され、コストも 90% 削減できました。これらの優れた結果は、大規模環境での AnyMotion サービスの品質向上に貢献します」。

株式会社 NTT PC コミュニケーションズ、ソフトウェアエンジニア、Toshiki Yanagisawa 氏

Anthem

Anthem は、米国を代表する医療保険会社の 1 つであり、数十州にわたり 4000 万人以上のメンバーの医療ニーズに対応しています。 

「デジタル医療プラットフォームの市場は目覚ましい速度で成長しています。この市場に関するインテリジェンスは、膨大な量の顧客の意見データと構造化されていないその性質のため、収集が困難です。当社のアプリケーションは、深層学習の自然言語モデル (トランスフォーマー) を介して顧客の意見から実用的な洞察を自動的に生成します。当社のアプリケーションは計算集約型であり、高性能な方法でデプロイする必要があります。AWS Inferentiaプロセッサを搭載した Amazon EC2 Inf1 インスタンスに深層学習推論ワークロードをシームレスにデプロイしました。新しい Inf1 インスタンスは、GPU ベースのインスタンスに 2 倍のスループットを提供し、推論ワークロードを合理化することができました」

Anthem、PhD、プリンシパル AI/データサイエンティスト、Numan Laanait 氏
Anthem、PhD、プリンシパル AI/データサイエンティスト、Miro Mihaylov 氏

Condé Nast
「Condé Nast のグローバルポートフォリオには、Wired、Vogue、Vanity Fair など 20 を超える主要なメディアブランドが含まれています。数週間で私たちのチームはレコメンデーションエンジンを AWS Inferentia チップと統合できました。この統合により SageMaker の Inf1 インスタンスで最先端の自然言語モデルの複数のランタイム最適化が可能になります。その結果、以前にデプロイされた GPU インスタンスよりも 72% のコスト削減が見られました」

Condé Nast、プリンシパルエンジニア、AI インフラストラクチャ、Paul Fryzel 氏

Ciao
「Ciao は、従来のセキュリティカメラを、人間の目と同等の機能を持つ高性能分析カメラに進化させました。当社のアプリケーションは、災害防止を進め、クラウドベースの AI カメラソリューションを使用して環境条件を監視し、災害が発生する前に警告を発します。このような警告により、発生した状況に対して事前に対応できます。物体検出に基づいて、従業員のいない実店舗のビデオから、入店する顧客の人数を推定することによって洞察を提供することもできます。Ciao Camera は、AWS Inferentia ベースの Inf1 インスタンスを商業的に採用し、YOLOv4 を搭載した G4dn よりも 40% 優れた価格性能比を実現しました。Inf1 がその大幅な費用対効率を活用して、より多くのサービスを提供できることを楽しみにしています」

Ciao Inc.、ソフトウェアエンジニア、Shinji Matsumoto 氏

欧文ベーシックロゴ(The Asahi Shimbun)
「朝日新聞は、日本でポピュラーな日刊紙の 1 つです。当社の部門の 1 つとして設立された Media Lab は、最新の技術、特に AI を研究し、最先端の技術を新しいビジネスに結び付けることを目指しています。東京で AWS Inferentia ベースの Amazon EC2 Inf1 インスタンスがリリースされたので、これらのインスタンスで PyTorch ベースのテキスト要約 AI アプリケーションをテストしました。このアプリケーションは、大量のテキストを処理し、過去 30 年間の記事でトレーニングしたヘッドラインと要約文を生成します。Inferentia を使って、CPU ベースのインスタンスよりもコストを 1 桁削減しました。この劇的なコスト削減により、以前は経済的に実現可能ではないと考えていた極めて複雑なモデルを大規模にデプロイできるようになります」。

朝日新聞社、PhD, Senior Administrator、Media Lab、Hideaki Tamori 氏

CS Disco
「CS Disco は、弁護士が弁護士のために開発した AI ソリューションのリーディングプロバイダーとしてリーガルテクノロジーを改革しています。Disco AI は、計算量が多くコストがかかる複雑な Natural Language Processing モデルを活用することで、テラバイト単位のデータを効率的に処理し、レビュー時間を短縮し、レビューの精度を向上させます。Disco は、AWS Inferentia ベースの Inf1 インスタンスを現在の GPU インスタンスと比較して Disco AI の推論コストを少なくとも 35% 削減できることに気が付きました。Inf1 インスタンスを使用したこの良い結果の経験を元に、CS Disco は Inferentia への移行の機会を探っています」。

Alan Lockett, Sr. 氏Director of Research、CS Disco

Talroo
「Talroo では、ユニークな求職者を引き付けて採用できるようにするデータ手動のプラットフォームをお客様に提供しています。最高の製品とサービスをお客様に提供できるよう、常に新しいテクノロジーを模索しています。Inferentia を使って、テキストデータのコーパスからインサイトを抽出し、AI を活用した検索と照合技術を強化しています。Talroo では Amazon EC2 Inf1 インスタンスを活用し、SageMaker で高スループットの自然言語理解モデルを作成しています。Talroo の最初のテストから、Amazon EC2 Inf1 インスタンスは G4dn GPU ベースのインスタンスと比較して、40% 低い推論レイテンシーと 2 倍高いスループットを提供することがわかっています。これらの結果から、Talroo は AWS インフラストラクチャの一部として Amazon EC2 Inf1 インスタンスに期待しています。

Talroo、ソフトウェアエンジニア、Janet Hu 氏

DMP
Digital Media Professional (DMP) は、AI (人工知能) に基づく ZIA™ プラットフォームで未来を可視化します。DMP の効率的なコンピュータビジョン分類テクノロジーを使用して、状態観察、犯罪防止、事故防止などの大量のリアルタイム画像データに関する洞察を構築します。画像セグメンテーションモデルは、GPU ベースの G4 インスタンスと比べ、AWS Inferentia ベースの Inf1 インスタンスで 4 倍高速で実行されることを認識しました。この高スループットと低コストにより、Inferentia を使用すると、車のドライブレコーダーのアプリケーションなど、AI ワークロードを大規模にデプロイすることができます」。

デジタルメディアプロフェッショナル、セールスおよびマーケティンググループディレクター兼ゼネラルマネージャー、Hiroyuki Umeda 氏

Hotpot.ai

Hotpot.ai は、デザイナー以外のユーザーが魅力的なグラフィックを作成できるようにし、プロのデザイナーが重要なタスクを自動化できるようにします。 

「機械学習は戦略の中核であるため、AWS Inferentia ベースの Inf1 インスタンスを試すことができて嬉しいです。Inf1 インスタンスは、研究開発パイプラインに簡単に統合できることがわかりました。最も重要なのは、G4dn GPU ベースのインスタンスと比較して、印象的なパフォーマンスの向上が観察されたことです。最初のモデルで、Inf1 インスタンスは約 45% 高いスループットを実現し、推論あたりのコストをほぼ 50% 削減しました。AWS チームと緊密に連携して他のモデルを移植し、ML 推論インフラストラクチャのほとんどを AWS Inferentia に移行する予定です」

Hotpot.ai、設立者、Clarence Hu 氏

SkyWatch
「SkyWatch では、毎日、宇宙から送られる数百兆ピクセルもの地球観測データを処理しています。リアルタイムでのクラウド検出と画質のスコアリングに Amazon SageMaker を使った新しい AWS Inferentia ベースの Inf1 インスタンスの採用は、迅速かつ簡単でした。デプロイ設定でインスタンスタイプを切り替えるだけで済みました。インスタンスタイプを Inferentia ベースの Inf1 に切り替えることで、パフォーマンスが 40% 向上し、全体のコストは 23% 削減しました。大成功でした。これにより、エンジニアリングのオーバーヘッドを最小限に抑えて、高品質の衛星画像を提供しながら、全体的な運用コストを削減してきました。Inf1 インスタンスを使って、すべての推論エンドポイントとバッチ ML 処理を移行し、データの信頼性とカスタマーエクスペリエンスをさらに向上しようとしています」。

SkyWatch、Engineering Manager、Adler Santos 氏

株式会社マネーフォワード

マネーフォワード社は、オープンでフェアな金融プラットフォームで、企業や個人にサービスを提供しています。マネーフォワード社のグループ会社であるHiTTO社は、このプラットフォームの一環として、法人のお客様の多様なニーズに対応するために、オーダーメイドのNLPモデルを用いたAIチャットボットのサービスを提供しています。

「当社のAIチャットボットサービスをAmazon EC2 Inf1インスタンスに移行するのは簡単でした。2か月で移行を完了し、Amazon Elastic Container Service(ECS)を利用して、Inf1インスタンス上で大規模なサービスを開始しました。Inf1インスタンスあたり複数のモデルを提供することで、推論レイテンシーを97%削減し、推論コストを50%以上削減しました(同等のGPUベースのインスタンスと比較して)。InferentiaベースのInf1インスタンスでより多くのワークロードを実行することを楽しみにしています。」

株式会社マネーフォワード CTOオフィス テクニカルリード あだち けんと氏

AWS Inferentia を使用する Amazon のサービス

Amazon Advertising

Amazon Advertising は、あらゆる規模の企業が、ショッピングジャーニーのあらゆる段階でお客様とつながることを可能にします。テキストや画像を含む何百万もの広告が、最適なカスタマーエクスペリエンスを実現するために、毎日、管理、分類、配信されています。

「テキスト広告の処理では、PyTorch ベースの BERT モデルを AWS Inferentia ベースの Inf1 インスタンスにグローバルにデプロイしています。GPU から Inferentia に移行することで、同等のパフォーマンスで 69% のコスト削減を実現しました。AWS Inferentia 用のモデルのコンパイルとテストには、3 週間もかかりませんでした。Amazon SageMaker を使用してモデルを Inf1 インスタンスにデプロイすることで、デプロイのスケーラビリティと管理のしやすさが確保されました。コンパイルしたモデルを初めて分析したとき、AWS Inferentia でのパフォーマンスは非常に印象的で、実際にベンチマークを再実行してそれらが正しいこと確認しなければなりませんでした。 今後は、画像広告の処理モデルを Inferentia に移行していく予定です。これらのモデルでは、同等の GPU ベースのインスタンスと比較して、30% のレイテンシー低下と 71% のコスト削減がすでにベンチマークされています」。

Amazon Advertising、応用科学者、Yashal Kanungo 氏

ニュースブログを読む »

Alexa 8up logo
「Amazon Web Servicesによる Amazon Alexa の AI と ML ベースのインテリジェンスは、現在 1 億台を超えるデバイスで利用できます。Alexa をよりスマートに、より能動的に、もっと会話ができて、さらに楽しく使用できるよう努力を惜しまないことをお約束します。これを実現するには、応答時間と機械学習インフラストラクチャのコストを継続的に改善していくことが必要です。そのため、Amazon EC2 Inf1 を使用して、Alexa のテキスト読み上げ推論のレイテンシーや推論あたりのコストを削減できることに期待を寄せています。Amazon EC2 Inf1 を使用すれば、Alexa を毎月使用する何千万人ものお客様へのサービスをさらに改善することができます」。

Tom Taylor 氏、シニアバイスプレジデント、Amazon Alexa

「当社は、カスタマーエクスペリエンスをさらに向上させ、インフラストラクチャコストを削減するために、常に技術革新に取り組んでいます。ウェブベースの質問応答 (WBQA) ワークロードを GPU ベースの P3 インスタンスから AWS Inferentia ベースの Inf1 インスタンスに移行することで、推論コストを 60% 削減できただけでなく、エンドツーエンドのレイテンシーを 40% 以上改善し、Alexa を使ったお客様の Q&A エクスペリエンスの向上に貢献しています。Tensorflow ベースのモデルに Amazon SageMaker を使用することで、Inf1 インスタンスへの切り替えプロセスが簡単になり、管理しやすくなりました。現在、これらの WBQA ワークロードを実行するためにグローバルに Inf1 インスタンスを使用しており、コストとレイテンシーをさらに削減するために AWS Inferentia でパフォーマンスを最適化しています」。

Eric Lind 氏、ソフトウェア開発エンジニア、Alexa AI

Amazon Alexa
「Amazon Prime Video では、ライブイベントの動画品質をコンピュータビジョンの機械学習モデルを使用して解析し、Prime Video 会員に最適な視聴者エクスペリエンスを提供します。EC2 Inf1 インスタンスに画像分類機械学習モデルをデプロイしたところ、パフォーマンスが 4 倍向上し、コストも最大で 40% 削減することができました。現在、これらのコスト削減を活用して、オーディオファイルと動画ファイル間の同期のずれなど、より複雑な不具合を検出できる高度なモデルを革新および構築し、Prime Video 会員にさらに強化した視聴者エクスペリエンスを提供したいと考えています」。
 
Amazon Prime Video、ソリューションアーキテクト、Victor Antonino
Amazon Alexa
「Amazon Rekognition は、顧客がオブジェクト、人、テキスト、アクティビティを識別するのに役立つ、シンプルで簡単な画像および動画分析アプリケーションです。Amazon Rekognition には、お客様のために毎日何十億もの画像や動画を分析できる高性能の深層学習インフラストラクチャが必要です。AWS Inferentia ベースの Inf1 インスタンスでは、オブジェクト分類などの Rekognition モデルを実行すると、GPU でこれらのモデルを実行する場合と比較して、レイテンシーが 8 倍低くなり、スループットが 2 倍になります。これらの結果に基づいて、Rekognition を Inf1 に移行し、お客様がより早く正確な結果を取得できるようにします」。
 
Rajneesh Singh、ディレクター、SW エンジニアリング、Rekognition and Video

動画

AWS re:Invent 2019: アンディー ジャシーが半導体への投資と Inf1 について語る
AWS re:Invent 2019: 新しい Amazon EC2 Inf1 インスタンスによる機械学習推論と Amazon Alexa
新しい Amazon EC2 Inf1 インスタンスで機械学習アプリケーションの実行コストを削減 - AWS オンラインテックトーク
無料のアカウントにサインアップ

AWS 無料利用枠にすぐにアクセスできます。 

サインアップ 
AWS コンソールで構築を開始する

AWS コンソールで機械学習を開始する。

サインイン