Amazon Elastic Inference

機械学習の推論コストを最大 75% 削減

 重要なアップデート

Amazon Elastic Inference にご関心をお寄せいただきありがとうございます。Amazon Elastic Inference は、新規のお客様にはご利用いただけなくなりました。AWS Inferentia などの他のハードウェアアクセラレーションオプションを使用すると、機械学習推論ワークロードのパフォーマンスを低コストで向上させることができます。現在 Amazon Elastic Inference を使用している場合は、ワークロードをこれらの代替手段に移行することを検討してください。詳細については、AWS 機械学習インフラストラクチャのページをご覧ください。

Amazon Elastic Inference では、Amazon EC2 および SageMaker インスタンスまたは Amazon ECS タスクに低コストの GPU アクセラレーションをアタッチすることで、ディープラーニングの推論を実行するコストを最大 75% まで削減できます。Amazon Elastic Inferenceは、TensorFlow、Apache MXNet、PyTorch、および ONNX モデルをサポートします。

推論は、トレーニングされたモデルを使用して予測を行うプロセスです。ディープラーニングアプリケーションでは、2 つの理由から推論が総運用コストの最大 90% を占めます。まず、スタンドアロンの GPU インスタンスは一般的にモデルトレーニング用に設計されており、推論向けではありません。トレーニングジョブは数百のデータサンプルを同時にバッチ処理しますが、通常、推論ジョブはリアルタイムで単一の入力を処理するため、少量の GPU コンピューティングを消費します。これにより、スタンドアロン GPU の推論におけるコスト効率が低下します。一方、スタンドアロン CPU インスタンスは行列演算に特化していないため、ディープラーニングの推論に使用するには遅すぎることがよくあります。次に、モデルごとに CPU、GPU、およびメモリの要件が異なります。1 つのリソースを最適化すると、他のリソースが十分に活用されず、コストが高くなる可能性があります。

Amazon Elastic Inference は、コードを変更せずに任意の EC2 または SageMaker インスタンスタイプまたは ECS タスクに適切な量の GPU を搭載した推論アクセラレーションをアタッチできるようにすることで、これらの問題を解決します。Amazon Elastic Inference を使用すると、アプリケーションの全体的なコンピューティングとメモリのニーズに最も適した AWS の CPU インスタンスを選択し、GPU を利用した推論アクセラレーションを適切な量だけ個別に設定できるため、リソースを効率的に利用してコストを削減できます。

メリット

推論コストを最大 75% まで削減

Amazon Elastic Inference では、アプリケーションの全体的なコンピューティングおよびメモリのニーズに最も適したインスタンスタイプを選択できます。その後、必要な推論アクセラレーションの程度を個別に指定できます。これにより、推論の GPU コンピューティングを多めにプロビジョニングする必要がなくなり、推論コストを最大 75% まで削減します。

必要なものを正確に入手する方法

Amazon Elastic Inference は、推論アクセラレーションの単精度で最低 TFLOPS ( 1 秒あたり 1 兆の浮動小数点演算) または混合精度で最大 32 TFLOPS を提供します。これは、スタンドアロン Amazon EC2 P3 インスタンスによって提供される 1,000 TFLOPS の範囲よりもはるかに適切な推論コンピューティングの範囲です。例えば、単純な言語処理モデルでは、推論をうまく実行するために 1 つの TFLOPS のみを必要としますが、高度なコンピュータビジョンモデルでは最大 32 TFLOPSが必要になることがあります。

需要変化への対応

容量を多めにプロビジョニングせずにアプリケーションの需要を満たすために、需要の変化に対応する Amazon EC2 Auto Scaling グループを使用して、推論アクセラレーションの程度を簡単にスケールできます。EC2 Auto Scaling は、需要の増加に対応するように EC2 インスタンスを増加させ、各インスタンスにアタッチされたアクセラレーターを自動的にスケールアップします。同様に、需要の減少につれて EC2 インスタンスが減少すると、インスタンスごとにアタッチされているアクセラレーターも自動的にスケールダウンされます。これにより、必要なものに必要なときだけお支払いいただけます。

一般的なフレームワークのサポート

Amazon Elastic Inference は、TensorFlow および Apache MXNet モデルをサポートしており、追加のフレームワークも近日中に提供される予定です。

ブログ: Amazon Elastic Inference – GPU による推論アクセラレーション
2018 年 11 月 28 日