製品›
機械学習›
AWS Inferentia

AWS Inferentia

Amazon EC2 で、深層学習と生成 AI 推論について最低コストで高パフォーマンスを実現

AWS Neuron を利用した AWS Inferentia アクセラレーターを開始する

Inferentia を利用すべき理由

AWS Inferentia アクセラレーターは、深層学習 (DL) および生成 AI 推論アプリケーション向けに、Amazon EC2 で最低コストで高パフォーマンスを実現するために AWS によって設計されています。

第 1 世代の AWS Inferentia アクセラレーターは、Amazon Elastic Compute Cloud (Amazon EC2) Inf1 インスタンスを強化し、同等の Amazon EC2 インスタンスと比較して、スループットが最大 2.3 倍になるとともに、推論あたりのコストが最大 70% 削減されます。Finch AI、Sprinklr、Money Forward、Amazon Alexa など多くのお客様が Inf1 インスタンスを採用しており、そのパフォーマンスとコスト面でのメリットを実感しています。

AWS Inferentia2 アクセラレーターは、Inferentia と比較して、最大 4 倍のスループットと最大 10 倍の低レイテンシーを実現します。Inferentia2 ベースの Amazon EC2 Inf2 インスタンスは、大規模言語モデル (LLM) や Latent Diffusion Model など、複雑化の一途をたどるモデルを大規模にデプロイするように最適化されています。Inf2 インスタンスはアクセラレーター間の超高速接続を備えた、スケールアウト分散推論をサポートする、Amazon EC2 で最初の推論最適化インスタンスです。Leonardo.ai、Deutsche Telekom、Qualtrics などの多くのお客様が、自社の DL および生成 AI アプリケーションのために Inf2 インスタンスを採用しています。

AWS Neuron SDK は、デベロッパーが AWS Inferentia アクセラレーターでモデルをデプロイする (および AWS Trainium アクセラレーターでそれらのモデルをトレーニングする) のに役立ちます。 PyTorch や TensorFlow などの一般的なフレームワークとネイティブに統合するため、既存のコードやワークフローを引き続き使用し、Inferentia アクセラレーターで実行することができます。

Inferentia の利点

高スループットと低レイテンシーを実現するために最適化済み

第 1 世代の各 Inferentia アクセラレーターは、4 つの第 1 世代 NeuronCore を搭載しており、EC2 Inf1 インスタンスあたり最大 16 個の Inferentia アクセラレーターを備えています。各 Inferentia2 アクセラレーターは、2 つの第 2 世代 NeuronCore を搭載しており、EC2 Inf2 インスタンスあたり最大 12 個の Inferentia2 アクセラレーターを備えています。各 Inferentia2 アクセラレーターは、最大 190 テラ浮動小数点演算毎秒 (TFLOPS) の FP16 パフォーマンスをサポートしています。第 1 世代の Inferentia は、アクセラレーターごとに 8 GB の DDR4 メモリを搭載しており、大容量のオンチップメモリも特徴です。Inferentia2 では、アクセラレーターあたり 32 GB の HBM を搭載し、Inferentia に比べて総メモリ量を 4 倍、メモリ帯域幅を 10 倍に拡大しています。

機械学習フレームワークのネイティブサポート

AWS Neuron SDK は、PyTorch や TensorFlow などの一般的な機械学習フレームワークとネイティブに統合されています。AWS Neuron を使用すると、これらのフレームワークを使用して DL モデルを両方の AWS Inferentia アクセラレーターに最適にデプロイできます。Neuron は、コードの変更を最小限に抑え、ベンダー固有のソリューションと連携するように設計されています。 Neuron は、自然言語処理 (NLP)/理解、言語翻訳、テキスト要約、動画と画像の生成、音声認識、パーソナライゼーション、不正検出などのための推論アプリケーションを Inferentia アクセラレーターで実行するのに役立ちます。

自動キャストによる幅広いデータ型

第 1 世代の Inferentia は、FP16、BF16、INT8 のデータ型をサポートしています。Inferentia2 では、FP32、TF32、および新しい設定可能な FP8 (cFP8) データ型の追加サポートが新たに提供され、デベロッパーはパフォーマンスと精度を最適化するための柔軟性を高められるようになりました。AWS Neuron は、高精度な FP32 モデルを、精度とパフォーマンスを最適化しながら、低精度なデータ型に自動的にキャストします。オートキャストは、低精度の再トレーニングの必要性を排除することで、市場投入までの時間を短縮します。

最先端の DL 機能

Inferentia2 は、動的な入力サイズと C++ で書かれたカスタム演算子のためのハードウェア最適化を追加しています。また、ストキャスティックラウンディング (確率的な丸め処理の方法) をサポートしており、従来の丸め処理の方式と比較し高いパフォーマンスと精度を実現します。

持続可能性を考慮した構築

Inf2 インスタンスは、同等の Amazon EC2 インスタンスに比べて、1 ワット当たり最大 50% のパフォーマンス向上を実現します。これらとその基盤である Inferentia2 アクセラレーターが、DL モデルを大規模に実行するために構築されたものだからです。Inf2 インスタンスは、超大規模モデルをデプロイする際に、持続可能性の目標を達成するのに役立ちます。

動画

Amazon の生成 AI インフラストラクチャの舞台裏を見る

AWS Inferentia2 を搭載した Amazon EC2 Inf2 インスタンスの概要

AWS のお客様 4 社が AWS Inferentia を利用して機械学習のコストを削減し、イノベーションを推進した方法

リソース

AWS Inferentia と AWS Trainium を用いた、Amazon SageMaker JumpStart によるコスト最適化された Llama 2 モデルのファインチューニングとデプロイ

ブログを読む

Fine-tune Llama 2 using QLoRA and Deploy it on Amazon SageMaker with AWS Inferentia2

ブログを読む

AWS Inferentia2 で Stable Diffusion のパフォーマンスを最大化し、推論コストを削減する

ブログを読む

Amazon SageMaker 上で AWS Inferentia2 と AWS Trainium を使って、低コストで高性能な生成 AI 推論を実現

ブログを読む

ByteDance が AWS Inferentia の利用により、推論におけるレイテンシーの削減とスループットの向上とともに、最大で 60% のコスト削減を実現

ブログを読む

Amazon Search が AWS Inferentia で ML 推論コストを 85% 削減した方法

ブログを読む

Additional resources

AWS Neuron を使用し、TensorFlow、PyTorch、または MXNet 内から AWS Inferentia の使用を開始する

詳細はこちら

Additional resources

AWS Neuron の機能のロードマップ

詳細はこちら

Inferentia の使用を開始する

コンソールで構築を開始する

サインイン

推論サンプル/チュートリアル (Inf2/Trn1)

詳細はこちら