Amazon Elastic Inference は、Amazon EC2 または Amazon SageMaker のインスタンスタイプに適切な量の GPU による推論アクセラレーションをアタッチさせます。つまり、アプリケーションの全体的なコンピューティング、メモリ、およびストレージのニーズに最も適したインスタンスタイプを選択し、必要な推論アクセラレーションの程度を個別に構成できます。 

Amazon SageMaker および Amazon EC2 との統合

AWS で推論ワークロードを実行するには、2 つの方法があります。Amazon SageMaker にモデルをデプロイして完全マネージド型を実現するか、Amazon EC2 インスタンスで実行してご自身で管理することができます。Amazon Elastic Inference は、Amazon SageMaker および Amazon EC2 とシームレスに連携するように統合されているため、両方のシナリオで推論アクセラレーションを追加できます。Amazon SageMaker を使用してモデルの HTTPS エンドポイントを作成するとき、そして Amazon EC2 を使用してインスタンスを起動するときに、推論アクセラレーションに関してご希望の程度を指定できます。

TensorFlow と Apache MXNet のサポート

Amazon Elastic Inference は、AWS の TensorFlow Serving と Apache MXNet の強化バージョンで使用するように設計されています。これらの機能強化により、フレームワークは推論アクセラレーターの存在を自動的に検出し、アクセラレーターの GPU とインスタンスの CPU 間で最適なモデル運用を分散させます。さらに AWS Identity and Access Management (IAM) ポリシーを使用してアクセラレーターへのアクセスを安全に制御します。強化された TensorFlow Serving と MXNet ライブラリは、Amazon SageMaker および AWS 深層学習 AMI によって自動的に提供されるため、モデルを本番環境でデプロイするためにコードを変更する必要はありません。こちらの手順に従って別々にダウンロードすることもできます。

Open Neural Network Exchange (ONNX) フォーマットのサポート

ONNX は、深層学習フレームワークでモデルをトレーニングし、推論のために別のモデルに転送できるようにするオープンフォーマットです。これにより、さまざまなフレームワークの相対的な強みを活用することができます。例えば、ONNX を使用すると、PyTorch の柔軟性によって構築およびトレーニングされたモデルを Apache MXNet に転送して、大規模な推論を効率的に実行できるようになります。ONNX は PyTorch、MXNet、Chainer、Caffe2、Microsoft Cognitive Toolkit に統合されており、TensorFlow を含む他の多くのフレームワーク用のコネクタが付いています。Amazon Elastic Inference で ONNX モデルを使用するには、本番環境へのデプロイ向けに、トレーニングされたモデルを AWS に最適化されたバージョンの Apache MXNet に転送する必要があります。

単精度または混合精度演算の選択

Amazon Elastic Inference アクセラレーターは、単精度 ( 32 ビット浮動小数点) 演算と混合精度 ( 16 ビット浮動小数点) 演算の両方をサポートします。単精度は、お客様のモデルで使用されるパラメータを表す超大容量の数値範囲を提供します。しかし、ほとんどのモデルではこのような精度と数値の計算が実際に必要ないため、結果として不要なパフォーマンス低下が発生します。この問題を回避するために、混合精度演算では数値範囲を半減させて、最大 8 倍の推論パフォーマンスを得ることができます。

複数のアクセラレーションでの可用性

Amazon Elastic Inference では、アクセラレーターごとに 1 秒あたり 1 〜 32 兆の浮動小数点演算 (TFLOPS) の複数のスループットサイズが提供されます。また、コンピュータビジョン、自然言語処理、音声認識などの幅広い推論モデルを効率的にアクセラレーションさせます。Amazon Elastic Inference は、125 TFLOPS (利用可能な最小限の P3 インスタンス) から始まるスタンドアロンの Amazon EC2 P3 インスタンスと比較して、アクセラレーターごとに 1 つの TFLOPS から開始します。これにより、さらに適切な単位で推論アクセラレーションをスケールアップできます。より複雑なモデルの場合は、アクセラレーターごとに最大 32 TFLOPS までアクセラレーターサイズの拡大を選択することもできます。

Auto Scaling

Amazon Elastic Inference は、Amazon EC2 および Amazon SageMaker インスタンスのスケールアップに使用するのと同じ Amazon EC2 Auto Scaling グループの一部である可能性があります。EC2 Auto Scaling では、アプリケーションの需要に応じて EC2 インスタンスを追加すると、各インスタンスにアタッチされているアクセラレーターもスケールアップされます。同様に、Auto Scaling では需要の減少につれて EC2 インスタンスが減少すると、インスタンスごとにアタッチされているアクセラレーターもスケールダウンされます。これにより、アプリケーションのコンピューティング能力に合わせて推論アクセラレーションをスケールさせ、アプリケーションの需要を満たすことが容易になります。

Product-Page_Standard-Icons_01_Product-Features_SqInk
製品料金の詳細

Amazon Elastic Inference の料金を確認してください。

詳細 
Product-Page_Standard-Icons_02_Sign-Up_SqInk
無料のアカウントにサインアップ

AWS 無料利用枠にすぐにアクセスできます。 

サインアップ 
Product-Page_Standard-Icons_03_Start-Building_SqInk
コンソールで構築を開始する

Amazon SageMaker または Amazon EC2 で Amazon Elastic Inference を開始します。

サインイン