Amazon EC2 Inf1 インスタンス

高パフォーマンスかつ最小コストの機械学習推論をクラウドで実現

さまざまな業界の企業が、ビジネスイノベーションを推進し、カスタマーエクスペリエンスを向上させ、プロセスを改善するために、AI を活用した変革に目を向けています。AI アプリケーションを強化する機械学習モデルはますます複雑化しており、その結果、基礎となるコンピューティングインフラストラクチャのコストが増加しています。ML アプリケーションの開発と実行にかかるインフラストラクチャ支出の最大 90% は、多くの場合、推論に費やされます。お客様は、ML アプリケーションを本稼働環境にデプロイするための費用対効果の高いインフラストラクチャソリューションを求めています。

Amazon EC2 Inf1 インスタンスは、クラウドで最も低いコストで高性能 ML 推論を提供します。これらのインスタンスでは、同等の現行世代の GPU ベースの Amazon EC2 インスタンスと比較して、スループットが最大 2.3 倍高く、推論あたりのコストが最大 70% 低くなっています。Inf1 インスタンスは機械学習推論アプリケーションをサポートするため、1 から構築されました。同社は、AWS が設計開発した高機能の機械学習推論チップである AWS Inferentia チップを最大 16 個搭載しています。加えて Inf1 インスタンスには、第 2 世代 Intel® Xeon® スケーラブルプロセッサと最大 100 Gbps ネットワーキングが含まれ、高いスループットの推論を可能にしています。

お客様は、Inf1 インスタンスを使用して、検索レコメンデーション、コンピュータビジョン、音声認識、自然言語処理、パーソナライズ、不正検出といった大規模な機械学習推論アプリケーションを、クラウドで最小のコストで実行できます。

デベロッパーは、TensorFlow、PyTorch、MXNet などの人気の機械学習フレームワークと統合した AWS Neuron SDK を使って、Inf1 インスタンスに機械学習モデルをデプロイできます。 デベロッパーは引き続き同じ ML ワークフローを使用し、最小限のコード変更で、かつ、ベンダー固有のソリューションに縛られることなく、シームレスにアプリケーションを Inf1 インスタンスに移行できます。

Amazon SageMaker、Neuron SDK で事前設定された AWS Deep Learning AMI、またはコンテナ化された ML アプリケーション用の Amazon ECS もしくは Amazon EKS を使用して、Inf1 インスタンスの使用を簡単に開始できます。

AWS Inferentia に基づく Amazon EC2 Inf1 インスタンス (2:51)

利点

推論作業あたり最大 70% のコスト削減

Inf1 を使用すると、デベロッパーは、クラウドでの推論あたりのコストを最小限に抑えて、機械学習の本稼働用デプロイのコストを大幅に削減できます。Inf1 インスタンスの低いインスタンスコストと高いスループットの組み合わせにより、同等の現行世代の GPU ベースの EC2 インスタンスよりも最大 70% 低い推論あたりのコストを実現します。

使いやすさとコードの移植性

Neuron SDK は、TensorFlow、PyTorch、MXNet などの一般的な機械学習フレームワークと統合されています。デベロッパーは引き続き同じ ML ワークフローを使用し、最小限のコード変更でアプリケーションを Inf1 インスタンスにシームレスに移行できます。これにより、ベンダー固有のソリューションに縛られることなく、任意の機械学習フレームワーク、および要件に最適なコンピューティングプラットフォームを自由に使用し、最新のテクノロジーを活用することができます。

最大 2.3 倍のスループット

Inf1 インスタンスは、同等の現行世代の GPU ベースの Amazon EC2 インスタンスよりも最大 2.3 倍高いスループットを提供します。 Inf1 インスタンスを強化する AWS Inferentia チップは、小さなバッチサイズでの推論パフォーマンス向けに最適化されているため、リアルタイムアプリケーションでのスループットを最大化し、レイテンシー要件を満たすことができます。

極めて低いレイテンシー

AWS Inferentia チップには、機械学習モデルをチップ自体に直接キャッシュできる大きなオンチップメモリが装備されています。NeuronCore Pipeline などの機能を使用してモデルをデプロイすると、外部のメモリリソースにアクセスする必要がなくなります。Inf1 インスタンスを使用すると、帯域幅に影響を与えることなく、ほぼリアルタイムのレイテンシーでリアルタイムの推論アプリケーションをデプロイできます。

幅広い機械学習モデルとデータ型へのサポート

Inf1 インスタンスは、画像認識/分類のための SSD、VGG、ResNext や、自然言語処理のための Transformer や BERT など、一般的に使用されている多くの機械学習モデル アーキテクチャをサポートしています。さらに、Neuron での HuggingFace モデルリポジトリのサポートにより、お客様は、コードを 1 行変更するだけで、事前トレーニング済みモデル (または微調整済みモデル) を使用して簡単に推論をコンパイルおよび実行できます。複合精度の BF16 および FP16 といった複数のデータ型もサポートし、幅広いモデルとパフォーマンスのニーズに対応しています。

特徴

AWS Inferentia の搭載

AWS Inferentia は AWS が設計した機械学習推論チップで、低コストで高いパフォーマンスを実現します。AWS Inferentia の各チップは最大 128 TOPS(1 秒あたり数兆回の演算数)のパフォーマンスを提供し、FP16、BF16、INT8 データ型をサポートしています。AWS Inferentia チップは、大規模モデルのキャッシュに使用できる大量のオンチップメモリも備えています。これは、頻繁なメモリアクセスを必要とするモデルに特に役立ちます。

AWS Inferentia には、コンパイラ、ランタイムドライバー、プロファイリングツールで構成される AWS Neuron ソフトウェア開発キット (SDK) が付属しています。TensorFlow、PyTorch、MXNet などの一般的なフレームワークで作成およびトレーニングした複雑なニューラルネットモデルのデプロイを、Inf1 インスタンスを使用して実行できます。Neuron の NeuronCore Pipeline を使用することで、高速の物理的なチップ間相互接続を使って、大規模モデルを分割して複数の Inferentia チップで実行することができ、高いスループットかつ低コストの推論を実現できます。

高いパフォーマンスのネットワークとストレージ

Inf1 インスタンスは、高速ネットワークへのアクセスを必要とするアプリケーションに、最大 100 Gbps のネットワークスループットを提供します。次世代の Elastic Network Adapter (ENA) と NVM Express (NVMe) テクノロジーにより、Inf1 インスタンスではネットワーキングと Amazon Elastic Block Store (Amazon EBS) 向けに高スループットで低レイテンシーのインターフェイスを利用できます。

AWS Nitro System 上での構築

AWS Nitro System は構築ブロックを豊富に取り揃え、従来の仮想化機能の多くを専用のハードウェアとソフトウェアにオフロードして、仮想化のオーバーヘッドを削減しながら、高いパフォーマンス、可用性、セキュリティを実現します。

仕組み

Inf1 と AWS Inferentia の使用方法

お客様の声

AirBnB

2008 年にサンフランシスコで設立された Airbnb は、400 万人以上のホストが、世界のほぼすべての国で 9 億人以上のゲストを迎え入れているコミュニティマーケットプレイスです。

「Airbnb のコミュニティサポートプラットフォームは、世界中の何百万人ものゲストとホストからなるコミュニティに対して、インテリジェントでスケーラブル、かつ卓越したサービスエクスペリエンスを実現します。私たちは、サポートチャットボットアプリケーションが使用する自然言語処理モデルのパフォーマンスを向上させる方法を常に模索しています。AWS Inferentia による Amazon EC2 Inf1 インスタンスでは、PyTorch ベースの BERT モデルでは、GPU ベースのインスタンスと比較して、すぐに 2 倍のスループットの向上が見られました。将来的には、他のモデルやユースケースにも Inf1 インスタンスを活用したいと考えています」。

AirBnB、エンジニアリングマネージャー、Bo Zeng 氏

Snap Inc
「私たちは Snapchat の多くの側面において機械学習 (ML) を組み込んでおり、この分野のイノベーションを探求することを重要な優先事項としています。Inferentia について聞いた後、AWS とのコラボレーションを開始して Inf1/Inferentia インスタンスを採用し、パフォーマンスやコストなど、機械学習のデプロイを支援しました。私たちは推奨モデルから始めましたが、今後は Inf1 インスタンスでさらに多くのモデルを採用することを楽しみにしています」

Snap Inc.、エンジニアリング担当 VP、Nima Khajehnouri

Sprinklr
「Sprinklr の AI を活用した統合カスタマーエクスペリエンス管理 (Unified-CXM) プラットフォームは、企業が複数のチャネルを通じたリアルタイムのカスタマーフィードバックを収集し、実用的なインサイトに変換できるようにします。その結果、事前の問題解決、製品開発の強化、コンテンツマーケティングの改善、顧客サービスの向上などを実現します。Amazon EC2 Inf1 を使用することで、自然言語処理 (NLP) モデルの 1 つのパフォーマンスを大幅に向上させ、コンピュータビジョンモデルのパフォーマンスを向上させることができました。今後も Amazon EC2 Inf1 を利用して、世界中のお客様により良いサービスを提供していきたいと思います」。

Sprinklr、プロダクトエンジニアリング担当シニアバイスプレジデント、Vasant Srinivasan 氏

Autodesk
「Autodesk は、Inferentia を使用して、AI を活用した仮想アシスタントである Autodesk Virtual Agent (AVA) の認知テクノロジーを進歩させています。AVA は、自然言語理解 (NLU) と深層学習技術を適用して、問い合わせの背後にあるコンテキスト、意図、および意味を抽出することにより、顧客の質問に毎月 100,000 件以上の回答を行っています。Inferentia をパイロットすると、NLU モデルで G4dn よりも 4.9 倍高いスループットを得ることができ、Inferentia ベースの Inf1 インスタンスで多くのワークロードを実行できることを楽しみにしています」

Autodesk、シニアデータサイエンティスト、Binghui Ouyang 氏

NTT PC

NTTPC コミュニケーションズは、日本のネットワークサービスおよび通信ソリューションプロバイダーであり、情報通信技術市場において新しい革新的な製品を導入する通信事業者のリーダーです。

「NTTPC は、高度な姿勢推定マシンラーニングモデルに基づいた動作分析 API プラットフォームサービス「AnyMotion」を開発しました。NTTPC は、Amazon Elastic Container Service (ECS) を利用して、Amazon EC2 Inf1 インスタンスに AnyMotion プラットフォームをデプロイし、フルマネージドコンテナオーケストレーションサービスを実現しました。NTTPC は、Amazon EC2 Inf1 に AnyMotion コンテナをデプロイすることで、現行の GPU ベースの EC2 インスタンスと比較して、全体で 4.5 倍、推論レイテンシーが 25% 短縮され、コストも 90% 削減できました。これらの優れた結果は、大規模環境での AnyMotion サービスの品質向上に貢献します」。

株式会社 NTT PC コミュニケーションズ、ソフトウェアエンジニア、Toshiki Yanagisawa 氏

Anthem

Anthem は、米国を代表する医療保険会社の 1 つであり、数十州にわたり 4000 万人以上のメンバーの医療ニーズに対応しています。 

「デジタル医療プラットフォームの市場は目覚ましい速度で成長しています。この市場に関するインテリジェンスは、膨大な量の顧客の意見データと構造化されていないその性質のため、収集が困難です。当社のアプリケーションは、深層学習の自然言語モデル (トランスフォーマー) を介して顧客の意見から実用的な洞察を自動的に生成します。当社のアプリケーションは計算集約型であり、高性能な方法でデプロイする必要があります。AWS Inferentiaプロセッサを搭載した Amazon EC2 Inf1 インスタンスに深層学習推論ワークロードをシームレスにデプロイしました。新しい Inf1 インスタンスは、GPU ベースのインスタンスに 2 倍のスループットを提供し、推論ワークロードを合理化することができました」

Anthem、PhD、プリンシパル AI/データサイエンティスト、Numan Laanait 氏
Anthem、PhD、プリンシパル AI/データサイエンティスト、Miro Mihaylov 氏

Condé Nast
「Condé Nast のグローバルポートフォリオには、Wired、Vogue、Vanity Fair など 20 を超える主要なメディアブランドが含まれています。数週間で私たちのチームはレコメンデーションエンジンを AWS Inferentia チップと統合できました。この統合により SageMaker の Inf1 インスタンスで最先端の自然言語モデルの複数のランタイム最適化が可能になります。その結果、以前にデプロイされた GPU インスタンスよりも 72% のコスト削減が見られました」

Condé Nast、プリンシパルエンジニア、AI インフラストラクチャ、Paul Fryzel 氏

Ciao
「Ciao は、従来のセキュリティカメラを、人間の目と同等の機能を持つ高性能分析カメラに進化させました。当社のアプリケーションは、災害防止を進め、クラウドベースの AI カメラソリューションを使用して環境条件を監視し、災害が発生する前に警告を発します。このような警告により、発生した状況に対して事前に対応できます。物体検出に基づいて、従業員のいない実店舗のビデオから、入店する顧客の人数を推定することによって洞察を提供することもできます。Ciao Camera は、AWS Inferentia ベースの Inf1 インスタンスを商業的に採用し、YOLOv4 を搭載した G4dn よりも 40% 優れた価格性能比を実現しました。Inf1 がその大幅な費用対効率を活用して、より多くのサービスを提供できることを楽しみにしています」

Ciao Inc.、ソフトウェアエンジニア、Shinji Matsumoto 氏

朝日新聞
「朝日新聞は、日本でポピュラーな日刊紙の 1 つです。当社の部門の 1 つとして設立された Media Lab は、最新の技術、特に AI を研究し、最先端の技術を新しいビジネスに結び付けることを目指しています。東京で AWS Inferentia ベースの Amazon EC2 Inf1 インスタンスがリリースされたので、これらのインスタンスで PyTorch ベースのテキスト要約 AI アプリケーションをテストしました。このアプリケーションは、大量のテキストを処理し、過去 30 年間の記事でトレーニングしたヘッドラインと要約文を生成します。Inferentia を使って、CPU ベースのインスタンスよりもコストを 1 桁削減しました。この劇的なコスト削減により、以前は経済的に実現可能ではないと考えていた極めて複雑なモデルを大規模にデプロイできるようになります」。

朝日新聞社、PhD, Senior Administrator、Media Lab、Hideaki Tamori 氏

CS Disco
「CS Disco は、弁護士が弁護士のために開発した AI ソリューションのリーディングプロバイダーとしてリーガルテクノロジーを改革しています。Disco AI は、計算量が多くコストがかかる複雑な Natural Language Processing モデルを活用することで、テラバイト単位のデータを効率的に処理し、レビュー時間を短縮し、レビューの精度を向上させます。Disco は、AWS Inferentia ベースの Inf1 インスタンスを現在の GPU インスタンスと比較して Disco AI の推論コストを少なくとも 35% 削減できることに気が付きました。Inf1 インスタンスを使用したこの良い結果の経験を元に、CS Disco は Inferentia への移行の機会を探っています」。

Alan Lockett, Sr. 氏Director of Research、CS Disco

Talroo
「Talroo では、ユニークな求職者を引き付けて採用できるようにするデータ手動のプラットフォームをお客様に提供しています。最高の製品とサービスをお客様に提供できるよう、常に新しいテクノロジーを模索しています。Inferentia を使って、テキストデータのコーパスからインサイトを抽出し、AI を活用した検索と照合技術を強化しています。Talroo では Amazon EC2 Inf1 インスタンスを活用し、SageMaker で高スループットの自然言語理解モデルを作成しています。Talroo の最初のテストから、Amazon EC2 Inf1 インスタンスは G4dn GPU ベースのインスタンスと比較して、40% 低い推論レイテンシーと 2 倍高いスループットを提供することがわかっています。これらの結果から、Talroo は AWS インフラストラクチャの一部として Amazon EC2 Inf1 インスタンスに期待しています。

Talroo、ソフトウェアエンジニア、Janet Hu 氏

Digital Media Professionals (DMP)
Digital Media Professional (DMP) は、AI (人工知能) に基づく ZIA™ プラットフォームで未来を可視化します。DMP の効率的なコンピュータビジョン分類テクノロジーを使用して、状態観察、犯罪防止、事故防止などの大量のリアルタイム画像データに関する洞察を構築します。画像セグメンテーションモデルは、GPU ベースの G4 インスタンスと比べ、AWS Inferentia ベースの Inf1 インスタンスで 4 倍高速で実行されることを認識しました。この高スループットと低コストにより、Inferentia を使用すると、車のドライブレコーダーのアプリケーションなど、AI ワークロードを大規模にデプロイすることができます」。

デジタルメディアプロフェッショナル、セールスおよびマーケティンググループディレクター兼ゼネラルマネージャー、Hiroyuki Umeda 氏

Hotpot.ai

Hotpot.ai は、デザイナー以外のユーザーが魅力的なグラフィックを作成できるようにし、プロのデザイナーが重要なタスクを自動化できるようにします。 

「機械学習は戦略の中核であるため、AWS Inferentia ベースの Inf1 インスタンスを試すことができて嬉しいです。Inf1 インスタンスは、研究開発パイプラインに簡単に統合できることがわかりました。最も重要なのは、G4dn GPU ベースのインスタンスと比較して、印象的なパフォーマンスの向上が観察されたことです。最初のモデルで、Inf1 インスタンスは約 45% 高いスループットを実現し、推論あたりのコストをほぼ 50% 削減しました。AWS チームと緊密に連携して他のモデルを移植し、ML 推論インフラストラクチャのほとんどを AWS Inferentia に移行する予定です」

Hotpot.ai、設立者、Clarence Hu 氏

SkyWatch
「SkyWatch では、毎日、宇宙から送られる数百兆ピクセルもの地球観測データを処理しています。リアルタイムでのクラウド検出と画質のスコアリングに Amazon SageMaker を使った新しい AWS Inferentia ベースの Inf1 インスタンスの採用は、迅速かつ簡単でした。デプロイ設定でインスタンスタイプを切り替えるだけで済みました。インスタンスタイプを Inferentia ベースの Inf1 に切り替えることで、パフォーマンスが 40% 向上し、全体のコストは 23% 削減しました。大成功でした。これにより、エンジニアリングのオーバーヘッドを最小限に抑えて、高品質の衛星画像を提供しながら、全体的な運用コストを削減してきました。Inf1 インスタンスを使って、すべての推論エンドポイントとバッチ ML 処理を移行し、データの信頼性とカスタマーエクスペリエンスをさらに向上しようとしています」。

SkyWatch、Engineering Manager、Adler Santos 氏

Amazon EC2 Inf1 インスタンスを使用した Amazon サービス

Amazon Advertising

Amazon Advertising は、あらゆる規模の企業が、ショッピングジャーニーのあらゆる段階でお客様とつながることを可能にします。テキストや画像を含む何百万もの広告が、最適なカスタマーエクスペリエンスを実現するために、毎日、管理、分類、配信されています。

「テキスト広告の処理では、PyTorch ベースの BERT モデルを AWS Inferentia ベースの Inf1 インスタンスにグローバルにデプロイしています。GPU から Inferentia に移行することで、同等のパフォーマンスで 69% のコスト削減を実現しました。AWS Inferentia 用のモデルのコンパイルとテストには、3 週間もかかりませんでした。Amazon SageMaker を使用してモデルを Inf1 インスタンスにデプロイすることで、デプロイのスケーラビリティと管理のしやすさが確保されました。コンパイルしたモデルを初めて分析したとき、AWS Inferentia でのパフォーマンスは非常に印象的で、実際にベンチマークを再実行してそれらが正しいこと確認しなければなりませんでした。 今後は、画像広告の処理モデルを Inferentia に移行していく予定です。これらのモデルでは、同等の GPU ベースのインスタンスと比較して、30% のレイテンシー低下と 71% のコスト削減がすでにベンチマークされています」。

Amazon Advertising、応用科学者、Yashal Kanungo 氏

ニュースブログを読む »

Amazon Alexa
「Amazon Web Servicesによる Amazon Alexa の AI と ML ベースのインテリジェンスは、現在 1 億台を超えるデバイスで利用できます。Alexa をよりスマートに、より能動的に、もっと会話ができて、さらに楽しく使用できるよう努力を惜しまないことをお約束します。これを実現するには、応答時間と機械学習インフラストラクチャのコストを継続的に改善していくことが必要です。そのため、Amazon EC2 Inf1 を使用して、Alexa のテキスト読み上げ推論のレイテンシーや推論あたりのコストを削減できることに期待を寄せています。Amazon EC2 Inf1 を使用すれば、Alexa を毎月使用する何千万人ものお客様へのサービスをさらに改善することができます。」

Tom Taylor 氏、シニアバイスプレジデント、Amazon Alexa

「当社は、カスタマーエクスペリエンスをさらに向上させ、インフラストラクチャコストを削減するために、常に技術革新に取り組んでいます。ウェブベースの質問応答 (WBQA) ワークロードを GPU ベースの P3 インスタンスから AWS Inferentia ベースの Inf1 インスタンスに移行することで、推論コストを 60% 削減できただけでなく、エンドツーエンドのレイテンシーを 40% 以上改善し、Alexa を使ったお客様の Q&A エクスペリエンスの向上に貢献しています。Tensorflow ベースのモデルに Amazon SageMaker を使用することで、Inf1 インスタンスへの切り替えプロセスが簡単になり、管理しやすくなりました。現在、これらの WBQA ワークロードを実行するためにグローバルに Inf1 インスタンスを使用しており、コストとレイテンシーをさらに削減するために AWS Inferentia でパフォーマンスを最適化しています」。

Eric Lind 氏、ソフトウェア開発エンジニア、Alexa AI

Amazon Alexa
「Amazon Rekognition は、顧客がオブジェクト、人、テキスト、アクティビティを識別するのに役立つ、シンプルで簡単な画像および動画分析アプリケーションです。Amazon Rekognition には、お客様のために毎日何十億もの画像や動画を分析できる高性能の深層学習インフラストラクチャが必要です。AWS Inferentia ベースの Inf1 インスタンスでは、オブジェクト分類などの Rekognition モデルを実行すると、GPU でこれらのモデルを実行する場合と比較して、レイテンシーが 8 倍低くなり、スループットが 2 倍になります。これらの結果に基づいて、Rekognition を Inf1 に移行し、お客様がより早く正確な結果を取得できるようにします」
 
Rajneesh Singh、ディレクター、SW エンジニアリング、Rekognition and Video

料金

* ここでは、米国東部 (バージニア北部) の AWS リージョンでご利用いただいた場合の料金を示しています。1 年間または 3 年間のリザーブドインスタンスの料金は、「一部前払い」オプション、あるいは一部前払いオプションのないインスタンスの「前払いなし」オプションに対応します。

Amazon EC2 Inf1 インスタンスは、米国東部 (バージニア北部)、米国西部 (オレゴン) の AWS リージョンにおいて、オンデマンドインスタンス、リザーブドインスタンス、またはスポットインスタンスとしてご利用いただけます。

開始方法

Amazon SageMaker の使用

Amazon SageMaker を使用すれば、トレーニング済みの機械学習モデルを簡単にコンパイルして Amazon Inf1 インスタンスの本番環境にデプロイできるため、低レイテンシーでリアルタイム予測の生成を開始できます。AWS Inferentia 向けコンパイラの AWS Neuron は、Amazon SageMaker Neo と統合しており、トレーニング済みの機械学習モデルをコンパイルして、Inf1 インスタンスで最適に実行できます。Amazon SageMaker を使用すれば、複数のアベイラビリティーゾーンに分散した Inf1 インスタンスの自動スケーリングクラスターでモデルを簡単に実行し、高いパフォーマンスと可用性の両方のリアルタイム推論を実現できます。Amazon SageMaker を Github の例と共に使用して Inf1 にデプロイする方法を学びましょう。

AWS 深層学習 AMI の使用

AWS 深層学習 AMI (DLAMI) では、機械学習の専門家と研究者がクラウド上であらゆる規模の深層学習を加速させるためのインフラストラクチャとツールを提供しています。AWS Neuron SDK は AWS 深層学習 AMI にプリインストールされており、機械学習モデルをコンパイルして Inf1 インスタンスで最適に実行します。使用開始のプロセスについての詳細は、AMI 選択ガイドやその他の深層学習リソースをご覧ください。Neuron で DLAMI を使用する方法については、AWS DLAMI 入門ガイドをご参照ください。

Deep Learning Containers の使用

デベロッパーは、完全マネージド型の Kubernetes サービスである Amazon Elastic Kubernetes Service (EKS) と、Amazon の完全マネージドコンテナオーケストレーションサービスの Amazon Elastic Container Service (ECS) に Inf1 インスタンスをデプロイできるようになりました。Amazon EKS または Amazon ECS で Inf1 の使用を開始する詳細についてご覧ください。Inf1 インスタンスでのコンテナ実行の詳細については、コンテナツールのチュートリアルのページをご参照ください。Neuron は、AWS DL コンテナに事前インストールされた状態でも利用できます。

ブログと記事