投稿日: Apr 13, 2023

AWS は本日、Amazon Elastic Compute Cloud (Amazon EC2) Inf2 インスタンスの一般提供を開始しました。このインスタンスは、大規模言語モデル (LLM) やビジョントランスフォーマーなどの生成系 AI モデルに、高いパフォーマンスを、Amazon EC2 の中で最も低いコストで提供します。Inf2 インスタンスは、AWS が設計した最新の深層学習 (DL) アクセラレーターである AWS Inferentia2 チップを、最大 12 基搭載しています。第 1 世代の Amazon EC2 Inf1 インスタンスに比べて、スループットは最大で 4 倍、レイテンシーは最大で 10 分の 1 を実現しています。

Inf2 インスタンスを使用すれば、テキスト要約、コード生成、動画や画像の生成、音声認識、パーソナライゼーションといった一般的なアプリケーションを実行できます。Inf2 インスタンスは、高速のノンブロッキング相互接続である NeuronLink でサポートされた、スケールアウト分散推論を実行する、Amazon EC2 で最初の推論最適化インスタンスです。今後は、数千億のパラメータを持つモデルを、Inf2 インスタンス上の複数のアクセラレーターを横断して効率的にデプロイできます。Inf2 インスタンスは、他の同等の Amazon EC2 インスタンスに比べて、スループットは最大で 3 倍、レイテンシーは最大で 8 分の 1、料金パフォーマンスは最大で 40% の向上をそれぞれ実現しています。お客様が持続可能性の目標を達成できるよう、Inf2 インスタンスは、他の同等の Amazon EC2 インスタンスに比べて、ワットあたりのパフォーマンスが最大で 50% 向上しています。

DL パフォーマンスは最大で 2.3 ペタフロップスを、帯域幅 9.8 TB/秒のアクセラレーターメモリ容量は最大で合計 384 GB を、それぞれ実現しています。AWS Neuron SDK には、PyTorch や TensorFlow など、一般的な機械学習フレームワークがネイティブに統合されています。したがって、Inf2 へのデプロイには、お使いのフレームワークやアプリケーションコードをそのまま使用できます。デベロッパーは、Inf2 インスタンスの使用を、AWS Deep Learning AMI や AWS Deep Learning Containers から、あるいは、Amazon Elastic Container Service (Amazon ECS)、Amazon Elastic Kubernetes Service (Amazon EKS)、Amazon SageMaker などのマネージドサービスから始めることができます。

Inf2 インスタンスは、inf2.xlarge、inf2.8xlarge、inf2.24xlarge、inf2.48xlarge の 4 つのサイズで提供されています。利用可能な AWS リージョンは米国東部 (バージニア北部) と米国東部 (オハイオ) です。オンデマンドインスタンス、リザーブドインスタンス、スポットインスタンスとして、または Savings Plans の一部として購入可能です。 

Inf2 インスタンスの詳細については、Amazon EC2 Inf2 インスタンスのウェブページAWS Neuron のドキュメントを参照してください。