AWS Inferentia

AWS がカスタマイズした、高パフォーマンスの機械学習推論チップ

AWS では、デベロッパーの日常に深層学習を普及させ、低コストの従量課金モデルで利用できる最先端のインフラストラクチャへより多くの人がアクセスすることを目指しています。AWS Inferentia は、深層学習ワークロードを加速するために設計された Amazon の最初のカスタムシリコンであり、このビジョンを実現するための長期的な戦略の一部です。AWS Inferentia は、クラウドで高性能の推論を提供し、推論の総コストを削減し、デベロッパーが機械学習をビジネスアプリケーションに簡単に統合できるように設計されています。AWS Inferentia のワークロードのパフォーマンスを最適化するのに役立つコンパイラ、ランタイム、およびプロファイリングツールから構成される AWS Neuron ソフトウェア開発キット (SDK) は、AWS Inferentia ベースの Amazon EC2 Inf1 インスタンスを使用して実行されるように Tensorflow、PyTorch、および MXNet などの一般的なフレームワークで作成およびトレーニングされた複雑なニューラルネットモデルを実現します。

Amazon Alexa は AWS Inferentia を採用して ML 推論のコストを削減

利点

高性能

AWS Inferentia の各チップは、最大 128 TOPS (1 秒あたり数兆回の操作) のパフォーマンスをサポートし、EC2 Inf1 インスタンスごとに最大 16 個の Inferentia チップを有することができます。Inferentia は、小さいバッチサイズのスループットを最大化するように最適化されています。これは、音声生成や検索などのレイテンシー要件が厳しいアプリケーションに特に役立ちます。

低レイテンシー

AWS Inferentia は、大規模なモデルをオフチップで保存する代わりにキャッシュするために使用できる大量のオンチップメモリを備えています。これは推論レイテンシーの削減に大きな影響を与えます。その理由は、Neuron Cores と呼ばれる Inferentia のプロセッシングコアは、オンチップメモリに格納され、オフチップメモリの帯域幅によって制限されないモデルに高速でアクセスできるからです。

柔軟性

デベロッパーは、TensorFlow、PyTorch、MXNet などの一般的なフレームワークを使用してモデルをトレーニングし、AWS Neuron SDK を使用して AWS Inferentia ベースの Inf1 インスタンスに簡単にデプロイできます。AWS Inferentia は FP16、BF16、および INT8 データ型をサポートしています。さらに Inferentia は 32 ビットのトレーニング済みモデルを取得しており、BFloat16 を使用して 16 ビットモデルの速度での自動実行が可能です。

AWS Inferentia が機能する Amazon EC2 Inf1 インスタンス

AWS Inferentia チップに基づく Amazon EC2 Inf1 インスタンスは、すでにクラウドで利用可能な機械学習推論インスタンスで最も低コストなインスタンスである Amazon EC2 G4 インスタンスと比較しても、推論作業あたり 30% 高いスループットと 45% のコスト削減を実現しました。Inf1 インスタンスは、最大 16 個の AWS Inferentia チップ、最新のカスタムの第 2 世代 Intel® Xeon® Scalable プロセッサ、および最大 100 Gbps のネットワーキングを特徴とし、高スループットの推論を可能にします。 Amazon SageMaker を使用すれば、最も簡単かつ迅速に Inf1 インスタンスを開始できます。これは、デベロッパーが機械学習モデルをすばやく構築、トレーニング、およびデプロイできるようにするフルマネージドサービスです。コンテナ化されたアプリケーションを使用するデベロッパーは、Amazon Elastic Kubernetes Service (EKS) を使用して Inf1 インスタンスをデプロイすることもできます。

詳細 »

AWS Neuron SDK

AWS Neuron は、AWS Inferentia チップを使用して機械学習推論を実行するためのソフトウェア開発キット (SDK) です。AWS Inferentia チップ用のコンパイラ、ランタイム、およびプロファイリングツールから構成されており、デベロッパーは、AWS Inferentia ベースの Inf1 インスタンスを使用して、高パフォーマンスで低レイテンシーの推論を実行できるようにします。AWS Neuron は、デベロッパーが TensorFlow、PyTorch、MXNet などの一般的なフレームワークで機械学習モデルをトレーニングし、Amazon EC2 Inf1 インスタンスで最適に実行できる柔軟性を実現します。AWS Neuron SDK は、AWS 深層学習 AMI と AWS Deep Learning Containers にプリインストールされています。

詳細 » または今すぐ始める »

動画

AWS re:Invent 2019: Watch Andy Jassy talk about silicon investment and Inf1
AWS re:Invent 2019: ML Inference with new Amazon EC2 Inf1 Instances, featuring Amazon Alexa
Lower the Cost of Running ML Applications with New Amazon EC2 Inf1 Instances - AWS Online Tech Talks
Sign up for a free account
無料のアカウントにサインアップ

AWS 無料利用枠にすぐにアクセスできます。 

サインアップ 
Standard Product Icons (Start Building) Squid Ink
AWS コンソールで構築を開始する

AWS コンソールで機械学習を開始する。

サインイン