Amazon Web Services ブログ

Amazon EC2アップデート – 高性能で費用対効果の高い推論のための AWS Inferentia チップを搭載した Inf1 インスタンス

お客様は機械学習を大いに活用しています。オブジェクト検出、音声認識、自然言語処理、パーソナライズ、不正検出など、さまざまな種類のワークロードを実行しています。大規模な本番ワークロードで実行する場合、可能な限り迅速かつ費用対効果の高い方法で推論を実行できることが不可欠です。お客様の話では、推論は機械学習作業のコストの最大 90% を占めます。

新しい Inf1 インスタンス
本日、4 つのサイズの Inf1 インスタンスを起動します。これらのインスタンスは AWS Inferentia チップを搭載しており、高速で低レイテンシーの推論を提供するように設計されています。

AWS Inferentia チップは、推論プロセスを加速するように設計されています。各チップは次のパフォーマンスを提供できます。

  • 16 ビット浮動小数点 (FP16 および BF16) と混合精度データの 64 teraOPS。
  • 8 ビット整数 (INT8) データの 128 teraOPS。

チップには、高速インターコネクトと大量のメモリも含まれています。最大のインスタンスに 16 個のチップが搭載されているため、新規および既存の TensorFlow、PyTorch、および MxNet 推論ワークロードは、2 petaOPS を超える推論能力の恩恵を受けることができます。G4 インスタンスと比較した場合、Inf1 インスタンスは推論スループットを最大 3 倍にし、推論あたりのコストを最大 40% 削減します。

サイズと仕様は次のとおりです。

インスタンス名
Inferentia チップ
vCPUs RAM EBS 帯域幅 ネットワーク帯域幅
inf1.xlarge 1 4 8 GiB 最大 3.5 Gbps 最大 25 Gbps
inf1.2xlarge 1 8 16 GiB 最大 3.5 Gbps 最大 25 Gbps
inf1.6xlarge 4 24 48 GiB 3.5 Gbps 25 Gbps
inf1.24xlarge 16 96 192 GiB 14 Gbps 100 Gbps

インスタンスは、カスタムの第 2 世代 Intel ®Xeon ® スケーラブル (カスケードレイク) プロセッサーを活用し、オンデマンド、スポット、およびリザーブドインスタンス形式で、または 米国東部 (バージニア北部) 米国西部 (オレゴン) リージョンの Savings Plan の一部として利用できます。インスタンスは直接起動できます。また、Amazon SageMaker、Amazon ECS、および titletitleAmazon Elastic Kubernetes Service を介して間もなく利用できるようになります。

Inf1 インスタンスの使用
Amazon Deep Learning AMI が更新され、Inf1 インスタンスでの使用に最適化された TensorFlow と MxNet のバージョンが含まれています。PyTorch は近日中にリリースされます。AMI には、Inferentia チップで ML モデルをコンパイル、最適化、実行するためのコマンドが備わった新しい AWS Neuron SDK が含まれています。独自の AMI とイメージに SDK を含めることもできます。

P3 や P3dn などの GPU インスタンスでモデルを構築およびトレーニングしてから、本番用に Inf1 インスタンスに移動できます。FP16 でネイティブにトレーニングされたモデルを使用するか、32 ビット精度にトレーニングされ、AWS Neuron が自動的に BF16 形式に変換したモデルを使用できます。言語翻訳や自然言語処理などの大規模モデルは、レイテンシーを短縮するために複数の Inferentia チップに分割できます。

AWS Neuron SDK を使用すると、モデルを Neuron Compute Group に割り当てて、それらを並行して実行することもできます。これにより、ハードウェアの使用率を最大化し、Neuron Core Pipeline モードの一部として複数のモデルを使用して、各 Inferentia チップの大規模なオンチップキャッシュを活用できます。詳細については、「AWS Neuron SDK Tutorials」をお読みください!

Jeff;