重要なアップデート
Amazon Elastic Inference にご関心をお寄せいただきありがとうございます。Amazon Elastic Inference は、新規のお客様にはご利用いただけなくなりました。AWS Inferentia などの他のハードウェアアクセラレーションオプションを使用すると、機械学習推論ワークロードのパフォーマンスを低コストで向上させることができます。現在 Amazon Elastic Inference を使用している場合は、ワークロードをこれらの代替手段に移行することを検討してください。詳細については、AWS 機械学習インフラストラクチャのページをご覧ください。
Amazon Elastic Inference では、Amazon EC2 および SageMaker インスタンスまたは Amazon ECS タスクに低コストの GPU アクセラレーションをアタッチすることで、ディープラーニングの推論を実行するコストを最大 75% まで削減できます。Amazon Elastic Inferenceは、TensorFlow、Apache MXNet、PyTorch、および ONNX モデルをサポートします。
推論は、トレーニングされたモデルを使用して予測を行うプロセスです。ディープラーニングアプリケーションでは、2 つの理由から推論が総運用コストの最大 90% を占めます。まず、スタンドアロンの GPU インスタンスは一般的にモデルトレーニング用に設計されており、推論向けではありません。トレーニングジョブは数百のデータサンプルを同時にバッチ処理しますが、通常、推論ジョブはリアルタイムで単一の入力を処理するため、少量の GPU コンピューティングを消費します。これにより、スタンドアロン GPU の推論におけるコスト効率が低下します。一方、スタンドアロン CPU インスタンスは行列演算に特化していないため、ディープラーニングの推論に使用するには遅すぎることがよくあります。次に、モデルごとに CPU、GPU、およびメモリの要件が異なります。1 つのリソースを最適化すると、他のリソースが十分に活用されず、コストが高くなる可能性があります。
Amazon Elastic Inference は、コードを変更せずに任意の EC2 または SageMaker インスタンスタイプまたは ECS タスクに適切な量の GPU を搭載した推論アクセラレーションをアタッチできるようにすることで、これらの問題を解決します。Amazon Elastic Inference を使用すると、アプリケーションの全体的なコンピューティングとメモリのニーズに最も適した AWS の CPU インスタンスを選択し、GPU を利用した推論アクセラレーションを適切な量だけ個別に設定できるため、リソースを効率的に利用してコストを削減できます。
メリット
推論コストを最大 75% まで削減
Amazon Elastic Inference では、アプリケーションの全体的なコンピューティングおよびメモリのニーズに最も適したインスタンスタイプを選択できます。その後、必要な推論アクセラレーションの程度を個別に指定できます。これにより、推論の GPU コンピューティングを多めにプロビジョニングする必要がなくなり、推論コストを最大 75% まで削減します。
必要なものを正確に入手する方法
Amazon Elastic Inference は、推論アクセラレーションの単精度で最低 TFLOPS ( 1 秒あたり 1 兆の浮動小数点演算) または混合精度で最大 32 TFLOPS を提供します。これは、スタンドアロン Amazon EC2 P3 インスタンスによって提供される 1,000 TFLOPS の範囲よりもはるかに適切な推論コンピューティングの範囲です。例えば、単純な言語処理モデルでは、推論をうまく実行するために 1 つの TFLOPS のみを必要としますが、高度なコンピュータビジョンモデルでは最大 32 TFLOPSが必要になることがあります。
需要変化への対応
容量を多めにプロビジョニングせずにアプリケーションの需要を満たすために、需要の変化に対応する Amazon EC2 Auto Scaling グループを使用して、推論アクセラレーションの程度を簡単にスケールできます。EC2 Auto Scaling は、需要の増加に対応するように EC2 インスタンスを増加させ、各インスタンスにアタッチされたアクセラレーターを自動的にスケールアップします。同様に、需要の減少につれて EC2 インスタンスが減少すると、インスタンスごとにアタッチされているアクセラレーターも自動的にスケールダウンされます。これにより、必要なものに必要なときだけお支払いいただけます。
一般的なフレームワークのサポート
Amazon Elastic Inference は、TensorFlow および Apache MXNet モデルをサポートしており、追加のフレームワークも近日中に提供される予定です。