投稿日: Nov 29, 2022
本日、AWS は Amazon Elastic Compute Cloud (Amazon EC2) Inf2 インスタンスのプレビュー版を発表します。最も要求の厳しい深層学習 (DL) の推論アプリケーションに対して、Amazon EC2 で最小のコストで高いパフォーマンスを提供するように設計されています。Inf2 インスタンスは AWS が設計した 3 番目の DL アクセラレーターである AWS Inferentia2 が、最大 12 台搭載されています。 Inf2 インスタンスは Inf1 インスタンスと比較して、3 倍のコンピューティングパフォーマンス、最大 4 倍のスループット、最大 10 倍優れた低レイテンシーを提供します。
Inf2 インスタンスを使用して、自然言語理解、翻訳、動画・画像生成、音声認識、パーソナライゼーションなどの DL アプリケーションを実行できます。これらは大規模言語モデル (LLM) やビジョントランスフォーマなどの複雑なモデルを大規模にデプロイするために最適化されており、同時に小規模なモデルの Inf1 インスタンスの料金パフォーマンスも向上させます。1,000 億を超える超大規模なパラメータモデルをサポートするために、Inf2 インスタンスはアクセラレーター間の超高速接続によるスケールアウト分散推論をサポートする、Amazon EC2 で最初の推論最適化インスタンスです。
Inf2 インスタンスは最大 2.3 ペタフロップスの DL 性能、9.8 TB/秒の帯域幅を備えた最大 384 GB のアクセラレーターメモリ、インスタンス内の超高速ノンブロッキングインターコネクトである NeuronLink を提供します。また、Inf2 インスタンスは Amazon EC2 の GPU ベースのインスタンスと比較してワットあたりのパフォーマンスが最大 50% 向上し、持続可能性の目標達成に役立ちます。AWS Neuron SDK は PyTorch や TensorFlow などの一般的な ML フレームワークとネイティブに統合されているため、数行のコードで DL アプリケーションを Inf2 にデプロイできます。
Inf2 インスタンスのプレビュー版の詳細とサインアップについては、Inf2 の製品詳細ページをご覧ください。