AWS Inferentia

AWS がカスタマイズした、高パフォーマンスの機械学習推奨チップ

深層学習の高速化の需要は、急速なペースでかつ幅広いアプリケーションにわたって増加しています。パーソナライズされた検索の推奨動的な料金設定、あるいは自動化した顧客サポートなどのアプリケーションでは高度化が進み、本番環境での実行がより高価となってきています。機械学習機能を組み込むアプリケーションが増えるにつれて、低レイテンシーのリアルタイムパフォーマンスを必要とするものを含め、ワークロードの割合を高める必要があります。これらのアプリケーションは、機械学習アルゴリズムを実行するために最適化したインフラストラクチャから恩恵を受けます。

AWS では、開発者の日常に深層学習を普及させ、低コストの従量課金モデルで利用できる最先端のハードウェアへより多くの人がアクセスすることを目指しています。AWS Inferentia は、このビジョンを実現するための大きな一歩であり、実現への約束でもあります。AWS Inferentia は、高い推論パフォーマンスの実現、推論の総コストの削減、さらに標準アプリケーションの機能の一部として機械学習を、クラウドで簡単に統合できるよう設計されています。AWS Inferentia には、コンパイラ、ランタイム、プロファイリングツールで構成される AWS Neuron ソフトウェア開発キット (SDK) が付属しています。この SDK を使用すれば、複雑なニューラルネットモデルを、Tensorflow、PyTorch、MXNet といった一般的なフレームワークで作成およびトレーニングでき、Amazon EC2 Inf1 インスタンスをベースにした AWS Inferentia で実行できます。

AWS Inferentia

利点

高性能

AWS Inferentia の各チップは低電力で最大 128 TOPS (1 秒間に数兆回の操作) のパフォーマンスをサポートしており、EC2 インスタンスごとに複数のチップを有効にできます。AWS Inferentia は FP16、BF16、および INT8 データ型をサポートしています。さらに Inferentia は 32 ビットのトレーニング済みモデルを取得しており、BFloat16 を使用して 16 ビットモデルの速度での実行が可能です。

低レイテンシー

AWS Inferentia は、大規模なオンチップメモリを特徴としています。このため、大規模なモデルのキャッシュが可能となり、チップ外に保存する必要はありません。この結果、Inferentia のプロセッシングコアである Neuron コアがモデルへ高速でアクセスでき、チップのオフチップメモリ帯域幅によって制限されないため、推論レイテンシーの低下に大きく貢献します。

使いやすさ

Amazon EC2 Inf1 インスタンスベースの AWS Inferentia には、トレーニング済みの機械学習モデルを、最小限のコード修正のみで簡単にデプロイできます。 機械学習モデルの構築、トレーニング、デプロイを可能にするフルマネージドサービスである Amazon SageMaker を使えば、簡単に使用開始いただけます。 独自のモデルを構築とデプロイするためのワークフローを、自身で管理したいとお考えの開発者には、AWS Neuron SDK を直接ご利用いただけます。これには、TensorFlow、PyTorch、MXNet など一般的なフレームワークがネイティブに組み込まれています。AWS Neuron は、AWS Deep Learning AMI に事前にインストールされており、お客様におけるカスタム環境にもフレームワークなしでインストールできます。

AWS Inferentia が機能する Amazon EC2 Inf1 インスタンス

Amazon EC2 Inf1 インスタンスは、ハイパフォーマンスで、クラウドにおいてもコスト最小の機械学習推論を実現しました。Inf1 インスタンスを使用すれば、顧客は、画像認識、音声認識、自然言語処理、パーソナライズ、不正検知といった大規模な機械学習推論アプリケーションを、クラウド内で最小のコストにより実行することができます。

詳細はこちら »

Product-Page_Standard-Icons_02_Sign-Up_SqInk
無料のアカウントにサインアップ

AWS 無料利用枠にすぐにアクセスできます。 

サインアップ 
Product-Page_Standard-Icons_03_Start-Building_SqInk
AWS コンソールで構築を開始する

AWS コンソールで機械学習を開始する。

サインイン