Amazon Elastic Inference の特徴

 重要な更新

Amazon Elastic Inference にご関心をお寄せいただきありがとうございます。Amazon Elastic Inference は、新規のお客様にはご利用いただけなくなりました。AWS Inferentia などの他のハードウェアアクセラレーションオプションを使用すると、機械学習推論ワークロードのパフォーマンスを低コストで向上させることができます。現在 Amazon Elastic Inference を使用している場合は、ワークロードをこれらの代替手段に移行することを検討してください。詳細については、 AWS 機械学習インフラストラクチャのページをご覧ください

Amazon Elastic Inference は、Amazon EC2 インスタンスまたは Amazon SageMaker インスタンスまたは ECS タスクに適切な量の GPU を搭載した推論アクセラレーションをアタッチさせます。つまり、アプリケーションの全体的なコンピューティング、メモリ、およびストレージのニーズに最も適した CPU インスタンスを選択し、GPU を搭載した必要な推論アクセラレーションの程度を個別に構成できます。

Amazon SageMaker、Amazon EC2 および Amazon ECS との統合

AWS で推論ワークロードを実行するには、複数の方法があります。Amazon SageMaker にモデルをデプロイして完全マネージド型を実現するか、Amazon EC2 インスタンスまたは Amazon ECS タスクで実行してご自身で管理することができます。Amazon Elastic Inference は、Amazon SageMaker、Amazon EC2 および Amazon ECS とシームレスに連携するように統合されているため、両方のシナリオで推論アクセラレーションを追加できます。Amazon SageMaker でモデルの HTTPS エンドポイントを作成するとき、そして Amazon EC2 インスタンスを起動するとき、および Amazon ECS タスクを定義するときに、推論アクセラレーションに関してご希望の程度を指定できます。

TensorFlow、Apache MXNet および PyTorch のサポート

Amazon Elastic Inference は、AWS の TensorFlow Serving と Apache MXNet、PyTorch の強化バージョンで使用するように設計されています。これらの機能強化により、フレームワークは推論アクセラレーターの存在を自動的に検出し、アクセラレーターの GPU とインスタンスの CPU 間で最適なモデル運用を分散させます。さらに AWS Identity and Access Management (IAM) ポリシーを使用してアクセラレーターへのアクセスを安全に制御します。強化された TensorFlow Serving と MXNet、PyTorch ライブラリは、Amazon SageMaker、AWS ディープラーニング AMI、および AWS Deep Learning Containers によって自動的に提供されるため、モデルを本番環境でデプロイするためにコードを変更する必要はありません。こちらの手順通り、別々にダウンロードすることもできます。

Open Neural Network Exchange (ONNX) フォーマットのサポート

ONNX は、深層学習フレームワークでモデルをトレーニングし、推論のために別のモデルに転送できるようにするオープンフォーマットです。これにより、さまざまなフレームワークの相対的な強みを活用することができます。ONNX は PyTorch、MXNet、Chainer、Caffe2、Microsoft Cognitive Toolkit に統合されており、TensorFlow を含む他の多くのフレームワーク用のコネクタが付いています。Amazon Elastic Inference で ONNX モデルを使用するには、本番環境へのデプロイ向けに、トレーニングされたモデルを AWS に最適化されたバージョンの Apache MXNet に転送する必要があります。

単精度または混合精度演算の選択

Amazon Elastic Inference アクセラレーターは、単精度 ( 32 ビット浮動小数点) 演算と混合精度 ( 16 ビット浮動小数点) 演算の両方をサポートします。単精度は、お客様のモデルで使用されるパラメータを表す超大容量の数値範囲を提供します。しかし、ほとんどのモデルではこのような精度と数値の計算が実際に必要ないため、結果として不要なパフォーマンス低下が発生します。この問題を回避するために、混合精度演算では数値範囲を半減させて、最大 8 倍の推論パフォーマンスを得ることができます。

複数のアクセラレーションでの可用性

Amazon Elastic Inference では、アクセラレーターごとに 1 秒あたり 1 〜 32 兆の浮動小数点演算 (TFLOPS) の複数のスループットサイズが提供されます。また、コンピュータビジョン、自然言語処理、音声認識などの幅広い推論モデルを効率的にアクセラレーションさせます。Amazon Elastic Inference は、125 TFLOPS (利用可能な最小限の P3 インスタンス) から始まるスタンドアロンの Amazon EC2 P3 インスタンスと比較して、アクセラレーターごとに 1 つの TFLOPS から開始します。これにより、さらに適切な単位で推論アクセラレーションをスケールアップできます。より複雑なモデルの場合は、アクセラレーターごとに最大 32 TFLOPS までアクセラレーターサイズの拡大を選択することもできます。

Auto Scaling

Amazon Elastic Inference は、Amazon SageMaker、Amazon EC2 および Amazon ECS インスタンスのスケールに使用するのと同じ Amazon EC2 Auto Scaling グループの一部である可能性があります。EC2 Auto Scaling では、アプリケーションの需要に応じて EC2 インスタンスを追加すると、各インスタンスにアタッチされているアクセラレーターもスケールアップされます。同様に、Auto Scaling では需要の減少につれて EC2 インスタンスが減少すると、インスタンスごとにアタッチされているアクセラレーターもスケールダウンされます。これにより、アプリケーションのコンピューティング能力に合わせて推論アクセラレーションをスケールさせ、アプリケーションの需要を満たすことが容易になります。

製品料金の詳細

Amazon Elastic Inference の料金を確認してください。

詳細 
無料のアカウントにサインアップ

AWS 無料利用枠にすぐにアクセスできます。 

サインアップ 
コンソールで構築を開始する

Amazon SageMaker または Amazon EC2 で Amazon Elastic Inference を開始します。

サインイン