Amazon EC2 Inf1 インスタンス

高パフォーマンスかつ最小コストの機械学習推論をクラウドで実現

さまざまな業界の企業が機械学習を利用して、パーソナライズしたショッピングに関するレコメンデーションの提供、オンラインコンテンツモデレーションの改善、状況認識チャットボットによる顧客エンゲージメントの強化などのユースケースに対応しています。しかし、機械学習モデルの機能が向上すれば、そのモデルもより複雑となります。その結果、コンピューティングの必要性が高まり、コストの増加につながります。多くの場合、ML アプリケーションの開発と実行に必要なインフラストラクチャの最大 90% は推論に費やされているため、高いパフォーマンスとコスト効率を持つ ML 推論インフラストラクチャが必要になります。

Amazon EC2 Inf1 インスタンスは Amazon EC2 G4 インスタンスよりも、最大 30% 高いスループットと最大 45% 低い推論あたりのコストを実現します。これは、クラウドでの機械学習推論向けインスタンスの中でも最も低いコストでした。Inf1 インスタンスは機械学習推論アプリケーションをサポートするため、1 から構築されました。これらのインスタンスでは、AWS が設計および構築したハイパフォーマンス機械学習推論チップである AWS Inferentia チップを最大 16 個まで搭載できます。加えて Inf1 インスタンスには、最新の第 2 世代 Intel® Xeon® スケーラブルプロセッサと最大 100 Gbps ネットワーキングが含まれ、高いスループットの推論を可能にしています。Inf1 インスタンスを使用することで、検索レコメンデーション、コンピュータビジョン、音声認識、自然言語処理、パーソナライズ、不正検出といった大規模な機械学習推論アプリケーションを、クラウドで最小のコストで実行できます。

デベロッパーは、TensorFlow、PyTorch、MXNet などの人気の機械学習フレームワークと統合した AWS Neuron SDK を使って、Inf1 インスタンスに機械学習モデルをデプロイできます。AWS Neuron SDK は、AWS Inferentia での推論パフォーマンスを最適化するためのコンパイラ、ランタイム、プロファイリングツールで構成されています。デベロッパーが機械学習モデルをすばやく構築、トレーニング、デプロイできるように支援する完全マネージドサービスの Amazon SageMaker を使用すれば、簡単かつ迅速に Inf1 インスタンスを開始できます。独自の機械学習アプリケーション開発プラットフォームを管理したいというデベロッパーは、Neuron SDK を含む AWS 深層学習 AMI で Inf1 インスタンスを起動するか、あるいはコンテナ化された ML アプリケーション向けの Amazon Elastic Kubernetes Service (EKS) もしくは Amazon Elastic Container Service (ECS) 経由で Inf1 インスタンスを使用することで開始できます。

SiteMerch-EC2-Instances_accelerated-trial_2up

無料トライアル: ML、HPC、グラフィックスアプリケーションに最適な EC2 Hardware Accelerated Instance に、最大 10,000 USD 相当の AWS クレジットが適用されます。

適用するには、ここをクリックしてください 
AWS Inferentia に基づく Amazon EC2 Inf1 インスタンス (2:51)

利点

推論作業あたり最大 45% のコスト削減

Inf1 インスタンスは高いスループットにより、クラウドで最も低コストな推論を実現しました。これは、すでにクラウドの機械学習推論インスタンスの中で最も低コストなインスタンスである Amazon EC2 G4 インスタンスと比較しても、推論作業あたり45% のコスト削減となっています。機械学習推論は機械学習ワークロードを実行する際の運用コスト全体の最大 90% を占めているので、結果として大幅なコスト節約が可能になります。

最大 30% 高いスループット

Inf1 インスタンスは、バッチ推論アプリケーションで、Amazon EC2 G4 インスタンスよりも最大で 30% 高いスループットを発揮します。写真のタグ付けのようなバッチ推論アプリケーションは、推論のスループットや 1 秒間に処理できる推論の数に影響を受けます。Inf1 インスタンスは、小さなバッチに高いパフォーマンスを提供するように最適化されています。これは、厳密な応答時間要件のあるアプリケーションにとって重要です。Inf1 インスタンスはインスタンスあたり 1~16 基の AWS Inferentia チップを使えば、最大 2000 TOPS(毎秒 1 兆回の演算数)までスケーリングできます。

極めて低いレイテンシー

Inf1 インスタンスは、リアルタイムアプリケーションで極めて低いレイテンシーを実現します。音声の生成や検索のようなリアルタイムでの推論アプリケーションは、推論がユーザーの入力に素早く反応することが必要なため、推論のレイテンシーの影響を大きく受けます。Inf1 インスタンスで使用する AWS Inferentia チップの大規模なオンチップメモリでは、機械学習モデルをチップに直接キャッシングできます。このため、推論中に外部メモリリソースにアクセスする必要がなくなり、帯域幅に影響を及ぼすことなくレイテンシーを低くすることができます。

幅広いユースケースでの機械学習推論

デベロッパーは、画像や動画の分析、会話型エージェント、不正検出、財務予測、ヘルスケアでの自動化、レコメンデーションエンジン、テキスト分析、文字起こしなど、さまざまなビジネス分野に適用できる幅広い機械学習アプリケーションに Inf1 インスタンスを使用することで、高性能、低レイテンシー、低コストの推論を活用できます。

使いやすさとコードの移植性

Neuron SDK は TensorFlow や PyTorch などの一般的な機械学習フレームワークと統合しているため、デベロッパーは最小限のコード変更で既存のモデルを EC2 Inf1 インスタンスにデプロイできます。このため、使用している ML フレームワークを引き続き使いながら、価格パフォーマンス要件に最適なコンピューティングプラットフォームを選択し、ベンダー固有のソフトウェアライブラリに縛られることなく、最新のテクノロジーを自由に活用できます。

異なる機械学習モデルとデータ型へのサポート

AWS Neuron を使用する Inf1 インスタンスは、一般的な機械学習モデルの多くをサポートしています。これにはシングルショット検知器 (SSD) や画像認識/分類のための ResNet、さらには自然言語処理と翻訳のための Transformer と BERT が含まれます。複合精度の INT8、BF16、FP16 といった複数のデータ型もサポートし、幅広いモデルとパフォーマンスのニーズに対応しています。

機能

AWS Inferentia の搭載

AWS Inferentia は AWS が設計した機械学習推論チップで、低コストで高いパフォーマンスを実現します。AWS Inferentia の各チップは最大 128 TOPS(1 秒あたり数兆回の演算数)のパフォーマンスを提供し、FP16、BF16、INT8 データ型をサポートしています。AWS Inferentia チップは、大規模モデルのキャッシュに使用できる大量のオンチップメモリも備えています。これは、頻繁なメモリアクセスを必要とするモデルに特に役立ちます。

AWS Inferentia には、コンパイラ、ランタイム、プロファイリングツールで構成される AWS Neuron ソフトウェア開発キット (SDK) が付属しています。TensorFlow、PyTorch、MXNet などの一般的なフレームワークで作成およびトレーニングした複雑なニューラルネットモデルを、Inf1 インスタンスを使用して実行できます。AWS Neuron には、高速の物理的なチップ間相互接続を使って、大規模モデルを分割して複数の Inferentia チップで実行する機能をサポートしており、高いスループットかつ低コストの推論を提供します。

高いパフォーマンスのネットワークとストレージ

Inf1 インスタンスは、高速ネットワークへのアクセスを必要とするアプリケーションに、最大 100 Gbps のネットワークスループットを提供します。次世代の Elastic Network Adapter (ENA) と NVM Express (NVMe) テクノロジーにより、Inf1 インスタンスではネットワーキングと Amazon Elastic Block Store (Amazon EBS) 向けに高スループットで低レイテンシーのインターフェイスを利用できます。

AWS Nitro System 上での構築

AWS Nitro System は構築ブロックを豊富に取り揃え、従来の仮想化機能の多くを専用のハードウェアとソフトウェアにオフロードして、仮想化のオーバーヘッドを削減しながら、高いパフォーマンス、可用性、セキュリティを実現します。

仕組み

Inf1 と AWS Inferentia の使用方法

お客様の声

Anthem
Anthem は、米国を代表する医療保険会社の 1 つであり、数十州にわたり 4000 万人以上のメンバーの医療ニーズに対応しています。「デジタル医療プラットフォームの市場は目覚ましい速度で成長しています。この市場に関するインテリジェンスは、膨大な量の顧客の意見データと構造化されていないその性質のため、収集が困難です。当社のアプリケーションは、深層学習の自然言語モデル (トランスフォーマー) を介して顧客の意見から実用的な洞察を自動的に生成します。当社のアプリケーションは計算集約型であり、高性能な方法でデプロイする必要があります。AWS Inferentiaプロセッサを搭載した Amazon EC2 Inf1 インスタンスに深層学習推論ワークロードをシームレスにデプロイしました。新しい Inf1 インスタンスは、GPU ベースのインスタンスに 2 倍のスループットを提供し、推論ワークロードを合理化することができました」

Numan Laanait 氏、PhD、Principal AI/Data Scientist および Miro Mihaylov 氏 PhD、Principal AI/Data Scientist

Condé Nast
「Condé Nast のグローバルポートフォリオには、Wired、Vogue、Vanity Fair など 20 を超える主要なメディアブランドが含まれています。数週間で私たちのチームはレコメンデーションエンジンを AWS Inferentia チップと統合できました。この統合により SageMaker の Inf1 インスタンスで最先端の自然言語モデルの複数のランタイム最適化が可能になります。その結果、以前にデプロイされた GPU インスタンスよりも 72% のコスト削減というパフォーマンスの改善が見られました」

Paul Fryzel 氏、Principal Engineer、AI Infrastructure

朝日新聞
「朝日新聞は、日本でポピュラーな日刊紙の 1 つです。当社の部門の 1 つとして設立された Media Lab は、最新の技術、特に AI を研究し、最先端の技術を新しいビジネスに結び付けることを目指しています。東京で AWS Inferentia ベースの Amazon EC2 Inf1 インスタンスがリリースされたので、これらのインスタンスで PyTorch ベースのテキスト要約 AI アプリケーションをテストしました。このアプリケーションは、大量のテキストを処理し、過去 30 年間の記事でトレーニングしたヘッドラインと要約文を生成します。Inferentia を使って、CPU ベースのインスタンスよりもコストを 1 桁削減しました。この劇的なコスト削減により、以前は経済的に実現可能ではないと考えていた極めて複雑なモデルを大規模にデプロイできるようになります。」

Hideaki Tamori 氏、PhD, Senior Administrator、Media Lab、朝日新聞社

CS Disco
「CS Disco は、弁護士が弁護士のために開発した AI ソリューションのリーディングプロバイダーとしてリーガルテクノロジーを改革しています。Disco AI は、計算量が多くコストがかかる複雑な Natural Language Processing モデルを活用することで、テラバイト単位のデータを効率的に処理し、レビュー時間を短縮し、レビューの精度を向上させます。Disco は、AWS Inferentia ベースの Inf1 インスタンスを現在の GPU インスタンスと比較して Disco AI の推論コストを少なくとも 35% 削減できることに気が付きました。Inf1 インスタンスを使用したこの良い結果の経験を元に、CS Disco は Inferentia への移行の機会を探っています」

Alan Lockett 氏、Sr.Director of Research、CS Disco

Talroo
「Talroo では、ユニークな求職者を引き付けて採用できるようにするデータ手動のプラットフォームをお客様に提供しています。最高の製品とサービスをお客様に提供できるよう、常に新しいテクノロジーを模索しています。Inferentia を使って、テキストデータのコーパスからインサイトを抽出し、AI を活用した検索と照合技術を強化しています。Talroo では Amazon EC2 Inf1 インスタンスを活用し、SageMaker で高スループットの自然言語理解モデルを作成しています。Talroo の最初のテストから、Amazon EC2 Inf1 インスタンスは G4dn GPU ベースのインスタンスと比較して、40% 低い推論レイテンシーと 2 倍高いスループットを提供することがわかっています。これらの結果から、Talroo は AWS インフラストラクチャの一部として Amazon EC2 Inf1 インスタンスに期待しています。

Janet Hu 氏、ソフトウェアエンジニア、Talroo

Digital Media Professionals (DMP)
Digital Media Professional (DMP) は、AI (人工知能) に基づくリアルタイムの ZIA プラットフォームで未来を可視化します。DMP の効率的なコンピュータビジョン分類テクノロジーを使用して、状態観察、犯罪防止、事故防止などの大量のリアルタイム画像データに関する洞察を構築します。AI アプリケーションを大規模にデプロイするために必要なパフォーマンスとコスト構造が Inferentia によって得られると確信しているため、代替オプションを介して Inf1 インスタンスを積極的に評価しています」 

Hiroyuki Umeda 氏 – Director & General Manager、Sales & Marketing Group、Digital Media Professionals

Hotpot.ai
Hotpot.ai は、デザイナー以外のユーザーが魅力的なグラフィックを作成できるようにし、プロのデザイナーが重要なタスクを自動化できるようにします。「機械学習は戦略の中核であるため、AWS Inferentia ベースの Inf1 インスタンスを試すことができて嬉しいです。Inf1 インスタンスは、研究開発パイプラインに簡単に統合できることがわかりました。最も重要なのは、G4dn GPU ベースのインスタンスと比較して、印象的なパフォーマンスの向上が観察されたことです。最初のモデルで、Inf1 インスタンスは約 45% 高いスループットを実現し、推論あたりのコストをほぼ 50% 削減しました。AWS チームと緊密に連携して他のモデルを移植し、ML 推論インフラストラクチャのほとんどを AWS Inferentia に移行する予定です」

Clarence Hu 氏、Founder、Hotpot.ai

INGA
「INGA は、現在のビジネスパイプラインに簡単に統合できる、人工知能と深層学習技術に基づく高度なテキスト要約ソリューションを作成しています。テキストの要約は、企業がデータから有意義なインサイトを引き出す支援を行う上で重要になると考えます。AWS Inferentia ベースの Amazon EC2 Inf1 インスタンスを迅速に立ち上げ、開発パイプラインに統合しました。あっという間に影響が広がり、またその影響は重大でした。Inf1 インスタンスの高いパフォーマンスで、推論モデルパイプラインの効率と効果を向上させることができます。これまでの GPU ベースのパイプラインと比較して、従来の常識を破って、スループットでは 4 倍、パイプライン全体のコストでは 30% の削減を実現しています。」

Yaroslav Shakula 氏、Chief Business Development Officer、INGA Technologies

SkyWatch
「SkyWatch では、毎日、宇宙から送られる数百兆ピクセルもの地球観測データを処理しています。リアルタイムでのクラウド検出と画質のスコアリングに Amazon SageMaker を使った新しい AWS Inferentia ベースの Inf1 インスタンスの採用は、迅速かつ簡単でした。デプロイ設定でインスタンスタイプを切り替えるだけで済みました。インスタンスタイプを Inferentia ベースの Inf1 に切り替えることで、パフォーマンスが 40% 向上し、全体のコストは 23% 削減しました。大成功でした。これにより、エンジニアリングのオーバーヘッドを最小限に抑えて、高品質の衛星画像を提供しながら、全体的な運用コストを削減してきました。Inf1 インスタンスを使って、すべての推論エンドポイントとバッチ ML 処理を移行し、データの信頼性とカスタマーエクスペリエンスをさらに向上しようとしています。」

Adler Santos 氏、Engineering Manager、SkyWatch

Amazon EC2 Inf1 インスタンスを使用した Amazon サービス

Amazon Alexa

1 億台を超える Alexa デバイスが世界中で販売されており、Amazon の Echo デバイスについての 5 つ星のレビューも 40 万件以上にのぼります。Amazon Alexa の Senior Vice President、Tom Taylor によれば、「アマゾン ウェブ サービスによる Amazon Alexa の AI と ML ベースのインテリジェンスは、現在 1 億台を超えるデバイスで利用できます。Alexa をよりスマートに、より能動的に、もっと会話ができて、さらに楽しく使用できるよう努力を惜しまないことをお約束します」「これを実現するには、応答時間と機械学習インフラストラクチャのコストを継続的に改善していくことが必要です。そのため、Amazon EC2 Inf1 を使用して、Alexa のテキスト読み上げ推論のレイテンシーや推論あたりのコストを削減できることに期待を寄せています。Amazon EC2 Inf1 を使用すれば、Alexa を毎月使用する何千万人ものお客様へのサービスをさらに改善することができます。」

料金

* ここでは、米国東部 (バージニア北部) の AWS リージョンでご利用いただいた場合の料金を示しています。1 年間または 3 年間のリザーブドインスタンスの料金は、「一部前払い」オプション、あるいは一部前払いオプションのないインスタンスの「前払いなし」オプションに対応します。

Amazon EC2 Inf1 インスタンスは、米国東部 (バージニア北部)、米国西部 (オレゴン) の AWS リージョンにおいて、オンデマンドインスタンス、リザーブドインスタンス、またはスポットインスタンスとしてご利用いただけます。

開始方法

Amazon SageMaker の使用

Amazon SageMaker を使用すれば、トレーニング済みの機械学習モデルを簡単にコンパイルして Amazon Inf1 インスタンスの本番環境にデプロイできるため、低レイテンシーでリアルタイム予測の生成を開始できます。AWS Inferentia 向けコンパイラの AWS Neuron は、Amazon SageMaker Neo と統合しており、トレーニング済みの機械学習モデルをコンパイルして、Inf1 インスタンスで最適に実行できます。Amazon SageMaker を使用すれば、複数のアベイラビリティーゾーンに分散した Inf1 インスタンスの自動スケーリングクラスターでモデルを簡単に実行し、高いパフォーマンスと可用性の両方のリアルタイム推論を実現できます。Amazon SageMaker を Github の Amazon SageMaker サンプルとともに使用して Inf1 にデプロイする方法を学びましょう。

AWS 深層学習 AMI の使用

AWS 深層学習 AMI (DLAMI) では、機械学習の専門家と研究者がクラウド上であらゆる規模の深層学習を加速させるためのインフラストラクチャとツールを提供しています。AWS Neuron SDK は AWS 深層学習 AMI にプリインストールされており、機械学習モデルをコンパイルして Inf1 インスタンスで最適に実行します。使用開始のプロセスについての詳細は、AMI 選択ガイドやその他の深層学習リソースをご覧ください。NeuronでDLAMIを使用する方法については、AWS DLAMI Getting Started ガイドをご参照ください。

Deep Learning Containers の使用

デベロッパーは、完全マネージド型の Kubernetes サービスである Amazon Elastic Kubernetes Service (EKS) と、Amazon の完全マネージドコンテナオーケストレーションサービスの Amazon Elastic Container Service (ECS) に Inf1 インスタンスをデプロイできるようになりました。Amazon EKS で Inf1 の使用を開始する詳細については、こちらのブログをご覧ください。Inf1 インスタンスでのコンテナ実行の詳細については、コンテナツールのチュートリアルのページをご参照ください。AWS DL Containers の Inf1 サポートは、近日の提供を予定しています。