Amazon Elastic Inference

機械学習の推論コストを最大 75% 削減

Amazon Elastic Inference では、Amazon EC2 および SageMaker インスタンスまたは Amazon ECS タスクに低コストの GPU アクセラレーションをアタッチすることで、ディープラーニングの推論を実行するコストを最大 75% まで削減できます。Amazon Elastic Inferenceは、TensorFlow、Apache MXNet、PyTorch、および ONNX モデルをサポートします。

推論は、トレーニングされたモデルを使用して予測を行うプロセスです。ディープラーニングアプリケーションでは、2 つの理由から推論が総運用コストの最大 90% を占めます。まず、スタンドアロンの GPU インスタンスは一般的にモデルトレーニング用に設計されており、推論向けではありません。トレーニングジョブは数百のデータサンプルを同時にバッチ処理しますが、通常、推論ジョブはリアルタイムで単一の入力を処理するため、少量の GPU コンピューティングを消費します。これにより、スタンドアロン GPU の推論におけるコスト効率が低下します。一方、スタンドアロン CPU インスタンスは行列演算に特化していないため、ディープラーニングの推論に使用するには遅すぎることがよくあります。次に、モデルごとに CPU、GPU、およびメモリの要件が異なります。1 つのリソースを最適化すると、他のリソースが十分に活用されず、コストが高くなる可能性があります。

Amazon Elastic Inference は、コードを変更せずに任意の EC2 または SageMaker インスタンスタイプまたは ECS タスクに適切な量の GPU を搭載した推論アクセラレーションをアタッチできるようにすることで、これらの問題を解決します。Amazon Elastic Inference を使用すると、アプリケーションの全体的なコンピューティングとメモリのニーズに最も適した AWS の CPU インスタンスタイプを選択し、リソースを効率的に使用してコストを削減するために GPU を搭載した推論アクセラレーションの程度を個別に設定できます。

Amazon Elastic Inference の概要

利点

推論コストを最大 75% まで削減

Amazon Elastic Inference では、アプリケーションの全体的なコンピューティングおよびメモリのニーズに最も適したインスタンスタイプを選択できます。その後、必要な推論アクセラレーションの程度を個別に指定できます。これにより、推論の GPU コンピューティングを多めにプロビジョニングする必要がなくなり、推論コストを最大 75% まで削減します。

必要なものを正確に入手する方法

Amazon Elastic Inference は、推論アクセラレーションの単精度で最低 TFLOPS ( 1 秒あたり 1 兆の浮動小数点演算) または混合精度で最大 32 TFLOPS を提供します。これは、スタンドアロン Amazon EC2 P3 インスタンスによって提供される 1,000 TFLOPS の範囲よりもはるかに適切な推論コンピューティングの範囲です。例えば、単純な言語処理モデルでは、推論をうまく実行するために 1 つの TFLOPS のみを必要としますが、高度なコンピュータビジョンモデルでは最大 32 TFLOPSが必要になることがあります。

需要変化への対応

容量を多めにプロビジョニングせずにアプリケーションの需要を満たすために、需要の変化に対応する Amazon EC2 Auto Scaling グループを使用して、推論アクセラレーションの程度を簡単にスケールできます。EC2 Auto Scaling は、需要の増加に対応するように EC2 インスタンスを増加させ、各インスタンスにアタッチされたアクセラレーターを自動的にスケールアップします。同様に、需要の減少につれて EC2 インスタンスが減少すると、インスタンスごとにアタッチされているアクセラレーターも自動的にスケールダウンされます。これにより、必要なものに必要なときだけお支払いいただけます。

人気のあるフレームワークのサポート

Amazon Elastic Inference は、TensorFlow および Apache MXNet モデルをサポートしており、さらに追加フレームワークが近日中に提供される予定です。

ブログ: Amazon Elastic Inference – GPU による推論アクセラレーション
2018 年 11 月 28 日
 
製品の特徴を見る

Amazon Elastic Inference 特徴の詳細をご覧ください。

詳細 
無料のアカウントにサインアップ

AWS 無料利用枠にすぐにアクセスできます。 

サインアップ 
コンソールで構築を開始する

Amazon SageMaker または Amazon EC2 で Amazon Elastic Inference を開始します。

サインイン