投稿日: Dec 12, 2019
1 つの Amazon EC2 インスタンスに複数の Amazon Elastic Inference アクセラレーターをアタッチできるようになりました。この機能により、複数のモデルで推論を実行しているときに、Auto Scaling グループで 1 つの EC2 インスタンスを使用できます。複数のアクセラレーターを 1 つのインスタンスにアタッチすることにより、推論に対して CPU または GPU インスタンスの複数の Auto Scaling グループをデプロイすることを避け、運用コストを下げることができます。
Amazon Elastic Inference では、Amazon EC2 インスタンスに対して適切な量の GPU 対応のアクセラレーションをアタッチして、深層学習推論の実行コストを最大 75% まで削減できます。お使いのモデルには異なる量の GPU メモリとコンピューティング容量が必要な場合があるため、CPU インスタンスにアタッチするために異なるサイズの Elastic Inference アクセラレーターを選択できます。応答時間を短くするために、モデルをアクセラレーターに一度ロードして、モデルをロード解除せずに、推論の呼び出しを継続して行うことができます。
EC2 インスタンスに複数のアクセラレーターを追加することは、Amazon Elastic Inference が使用できるすべてのリージョンでサポートされています。1 つのインスタンスに複数のアクセラレーターをアタッチすることの詳細については、Elastic Inference での TensorFlow モデルの使用 と Elastic Inference での MXNet Models の使用を参照してください。