AWS Inferentia

AWS がカスタマイズした、高パフォーマンスの機械学習推奨チップ

深層学習の高速化の需要は、急速なペースでかつ幅広いアプリケーションにわたって増加しています。パーソナライズされた検索の推奨動的な料金設定、あるいは自動化した顧客サポートなどのアプリケーションでは高度化が進み、本番環境での実行がより高価となってきています。機械学習機能を組み込むアプリケーションが増えるにつれて、低レイテンシーのリアルタイムパフォーマンスを必要とするものを含め、ワークロードの割合を高める必要があります。これらのアプリケーションは、機械学習アルゴリズムを実行するために最適化したインフラストラクチャから恩恵を受けます。

AWS では、開発者の日常に深層学習を普及させ、低コストの従量課金モデルで利用できる最先端のハードウェアへより多くの人がアクセスすることを目指しています。AWS Inferentia は、このビジョンを実現するための大きな一歩であり、実現への約束でもあります。AWS Inferentia はクラウドで高い推論パフォーマンスの実現、推論の総コストの削減、さらに標準アプリケーションの機能の一部として機械学習を簡単に統合できるよう設計されています。

AWS Inferentia

利点

高性能

AWS Inferentia の各チップは低電力で最大 128 TOPS (1 秒間に数兆回の操作) のパフォーマンスをサポートしており、EC2 インスタンスごとに複数のチップを有効にできます。AWS Inferentia は FP16、BF16、および INT8 データ型をサポートしています。さらに Inferentia は 32 ビットのトレーニング済みモデルを取得しており、BFloat16 を使用して 16 ビットモデルの速度での実行が可能です。

低レイテンシー

AWS Inferentia は、大規模なオンチップメモリを特徴としています。このため、大規模なモデルのキャッシュが可能となり、チップ外に保存する必要はありません。この結果、Inferentia のプロセッシングコアである Neuron コアがモデルへ高速でアクセスでき、チップのオフチップメモリ帯域幅によって制限されないため、推論レイテンシーの低下に大きく貢献します。

使いやすさ

AWS Inferentia には、AWS Neuron ソフトウェア開発キット (SDK) が付属しています。これで、複雑なニューラルネットモデルが利用可能となり、AWS Inferentia ベースの EC2 Inf1 インスタンスを使って実行する一般的なフレームワークで作成およびトレーニングすることができます。Neuron はコンパイラ、ランタイム、プロファイリングツールで構成され、TensorFlow、Pytorch、MXNet などの一般的な機械学習フレームワークにも統合済みです。このため、EC2 Inf1 インスタンスの最適なパフォーマンスが実現します。

Product-Page_Standard-Icons_02_Sign-Up_SqInk
無料のアカウントにサインアップ

AWS 無料利用枠にすぐにアクセスできます。 

サインアップ 
Product-Page_Standard-Icons_03_Start-Building_SqInk
AWS コンソールで構築を開始する

AWS コンソールで機械学習を開始する。

サインイン