Amazon EC2 Inf1 インスタンス

ハイパフォーマンスで、クラウドでコスト最小の機械学習推論を実現

Amazon EC2 Inf1 インスタンスは、ハイパフォーマンスで、クラウドでコスト最小の機械学習推論を実現しました。Inf1 インスタンスは、機械学習推論アプリケーションをサポートするため、全く新規に構築されました。これらのインスタンスでは、AWS が設計、開発した、ハイパフォーマンス機械学習推論チップである AWS Inferentia チップを 16 基まで利用できます。加えて、推論チップを最新のカスタム第 2 世代インテル® Xeon® スケーラブルプロセッサおよび最大 100 Gbps のネットワークと組み合わせることにより、ハイスループットの推論を可能にしました。このパワフルな構成により、Inf1 インスタンスは、すでにクラウドで利用可能な機械学習推論インスタンスで最も低コストなインスタンスである Amazon EC2 G4 インスタンスと比較しても、推論作業あたり 3 倍のスループット、40% のコスト削減を実現しました。Inf1 インスタンスを使用すれば、お客様は、画像認識、音声認識、自然言語処理、パーソナライズ、不正検知といった大規模な機械学習推論アプリケーションを、クラウドで最小のコストで実行することができます。

多種多様な業界の顧客が、パーソナライズされたお勧めショッピング、オンラインのコンテンツモデレーションによる安全性とセキュリティ、Chatbot によるカスタマーエンゲージメントの向上などのアプリケーションで必要な一般的なユースケースに対応するため、機械学習に注目しています。顧客は、可能な限り最高のエンドユーザーエクスペリエンスを提供できるよう、自身の機械学習アプリケーションのためにより多くのパフォーマンスを望んでいます。

Inf1 インスタンスを使用して機械学習推論を開始するには、トレーニング済みの機械学習モデルを取得し、AWS Neuron を使用して AWS Inferentia チップでモデルを実行するようにコンパイルできます。AWS Neuron は、コンパイラー、ランタイム、および Inferentia チップの機械学習推論パフォーマンスを最適化するプロファイリングツールで構成されるソフトウェア開発キット (SDK) です。TensorFlow、PyTorch、および MXNet などの一般的な機械学習フレームワークと統合されており、AWS Deep Learning AMI にプリインストールされています。また、フレームワークなしでカスタム環境にインストールすることもできます。Amazon SageMaker を使用すれば、最も簡単かつ迅速に Inf1 インスタンスを開始できます。これは、開発者が機械学習モデルをすばやく構築、トレーニング、デプロイできるようにするフルマネージドサービスです。 Amazon SageMaker は Inf1 インスタンスと AWS Neuron をサポートしています。機械学習モデルをワンクリックでデプロイし、複数のアベイラビリティーゾーンにまたがる Auto Scaling Inf1 インスタンスに配置して、高い冗長性を実現します。

SiteMerch-EC2-Instances_accelerated-trial_2up

無料トライアル: ML、HPC、グラフィックスアプリケーションに最適な EC2 ハードウェアアクセラレーション済みインスタンスには、最大 10,000 USD 相当の AWS クレジットが適用されます。

適用するには、ここをクリックしてください 
AWS Inferentia に基づく Amazon EC2 Inf1 インスタンス (2:51)

利点

推論作業あたり最大 40% のコスト削減

Inf1 インスタンスは、高いスループットにより、クラウドで最も低コストな推論を実現しました。これは、すでにクラウドで利用可能な機械学習推論インスタンスで最も低コストなインスタンスである Amazon EC2 G4 インスタンスと比較しても、推論作業あたり40% のコスト削減となっています。機械学習推論は、機械学習ワークロードを実行する際における運用コスト全体の最大 90% を占めているので、結果として大幅なコスト節約が可能になっています。

最大 3 倍のスループット

Inf1 インスタンスは、バッチ推論アプリケーションで、Amazon EC2 G4 インスタンスの最大 3 倍という高いスループットを発揮します。写真のタグ付けのようなバッチ推論アプリケーションは、推論のスループット、つまり 1 秒あたり処理できる推論数の影響を大きく受けます。インスタンスごとに 1~16 基の AWS Inferentia チップを使用できるので、Inf1 インスタンスは最大 2000 TOPS (Tera Operations per Second、毎秒 1 兆回の演算数) までスケーリングできます。

極めて低いレイテンシー

Inf1 インスタンスは、リアルタイムアプリケーション向けに、極めて低いレイテンシーを実現します。 音声認識のような、リアルタイムの推論アプリケーションは、推論がユーザーの入力に素早く反応することを必要としており、推論のレイテンシーの影響を大きく受けます。Inf1 インスタンスで使用される、AWS Inferentia チップの大規模なオンチップメモリは、機械学習モデルをチップに直接キャッシングすることを可能にします。これにより、推論中に外部メモリリソースにアクセスする必要がなくなるので、帯域幅に影響を及ぼすことなくレイテンシーを低くすることができます。

使いやすさ

Inf1 インスタンスは使いやすく、TensorFlow、PyTorch、MXNet といった最も一般的な機械学習フレームワークを使用してトレーニングを行ったモデルのデプロイをサポートする際のコードの変更は、もし必要だとしても、ごくわずかですみます。Amazon SageMaker を使用すれば、最も簡単で素早く Inf1 インスタンスを開始できます。これは、開発者が機械学習モデルをすばやく構築、トレーニング、デプロイできるようにするフルマネージドサービスです。

異なる機械学習モデルに対応できる柔軟性

AWS Neuron を使用する Inf1 インスタンスは、一般的に使用されている機械学習モデルの多くをサポートしています。これには物体検知 (single shot detector、SSD) や画像認識/分類のための ResNet、さらには自然言語処理と翻訳のための Transformer と BERT が含まれます。

複数のデータタイプをサポート

Inf1 インスタンスは、INT8、BF16、および複合精度の FP16 といった、複数のデータタイプをサポートしており、それによって幅広いモデルとパフォーマンスのニーズをサポートします。

Amazon SageMaker

Amazon SageMaker を使用すれば、トレーニング済みの機械学習モデルを簡単にコンパイルして Amazon Inf1 インスタンスの本番環境にデプロイできるため、低レイテンシーでリアルタイム予測を生成し始めることができます。Amazon SageMaker は、開発者やデータサイエンティストが機械学習モデルを迅速に構築、トレーニング、デプロイできるようにする完全マネージド型サービスです。 Amazon SageMaker は、機械学習プロセスの各ステップから面倒な処理を取り除き、高品質のモデルを開発し、パフォーマンスを最適化するように調整し、より迅速に本番環境へのデプロイを実現します。 AWS Inferentia のコンパイラである AWS Neuron は、Amazon SageMaker Neo と統合されており、トレーニング済みの機械学習モデルをコンパイルして、Inf1 インスタンスで最適に実行できます。Amazon SageMaker を使用すれば、モデルが Inf1 インスタンスの Auto Scaling クラスターで複数のアベイラビリティーゾーンに分散してデプロイされ、高いパフォーマンスと可用性の両方のリアルタイム推論が発揮されます。

詳細はこちら »

仕組み

Inf1 と AWS Inferentia の使用方法

AWS Inferentia チップ

AWS Inferentia は、低コストで高パフォーマンスを実現するよう AWS によって設計、開発された機械学習推論チップです。それぞれの AWS Inferentia チップには 4 つの Neuron コアがあり、FP16、BF16、および INT8 データタイプをサポートします。AWS Inferentia チップは、大規模モデルのキャッシュに使用できる大量のオンチップメモリを備えています。これは、頻繁なメモリアクセスを必要とするモデルに特に役立ちます。AWS Inferentia には、コンパイラ、ランタイム、プロファイリングツールで構成される AWS Neuron ソフトウェア開発キット (SDK) が付属しています。AWS Inferentia ベースの Amazon EC2 Inf1 インスタンスを使用して、Tensorflow、PyTorch、および MXNet などの一般的なフレームワークで作成およびトレーニングされた複雑なニューラルネットモデルを実行できます。AWS Neuron は、高速の物理的なチップ間相互接続を使用して、複数の Inferentia チップ間で実行する大規模モデル分割機能もサポートしています。また、高スループットおよび低コストの推論を提供します。

詳細はこちら >>

ユースケース

レコメンデーション

機械学習は、パーソナライズされた製品やコンテンツの推奨事項、カスタマイズされた検索結果、ターゲットを絞ったマーケティングプロモーションに力を注いで、カスタマーエンゲージメントを向上させるために、ますます導入されるようになっています。

予測

今日の企業は、製品の需要、リソースのニーズ、あるいは財務業績といった将来のビジネス成果を正確に予測するために、簡単なスプレッドシートから複雑な財務計画ソフトウェアにいたるまで、あらゆるツールを活用しています。これらのツールは一連の時系列データを確かめることで予測を立てますが、こうしたデータは時系列データと呼ばれます。企業はますます機械学習を利用し、時系列データを他の変数と結びつけて、予測を立てるようになっています。

画像および動画分析

今日、機械学習は物体、人物、テキスト、場面、活動を識別するため、また、画像や動画に含まれている不適切なコンテンツを検出するために用いられています。加えて、画像や動画の人物分析と認識は、顔を検出、分析、比較して、多岐にわたるユーザー検証、人数計数、公共安全のユースケースに使えます。

高度なテキスト分析

機械学習は、膨大な数のテキスト内の特定の関心項目 (アナリストレポートで会社名を見つけるなど) を正確に特定することに特に優れており、言語の中に隠された感情 (マイナスのレビューやカスタマーサービスエージェントと顧客の積極的なのやりとりの特定) をほぼ無限の規模で学習することができます。

ドキュメント分析

機械学習は、実質的にどのような種類のドキュメントでも即座に読み取ってテキストやデータを正確に抽出するために使用できます。人手による労力やカスタムコードは必要ありません。ドキュメントのワークフローを迅速に自動化でき、何百万ページものドキュメントも数時間で処理できます。

音声

企業は機械学習を使用して、文章をリアルな音声に変換できます。テキスト読み上げができるアプリケーションを作成できるため、まったく新しいタイプの音声対応製品を構築できます。テキスト読み上げ (TTS) サービスは、高度な深層学習技術を使用して、人間の声のような音声を合成します。

対話型エージェント

AI はコールセンターにおけるカスタマーエクスペリエンスの改善に重要な役割を果たしており、その 1 つにインテリジェントな自然言語を操るバーチャルアシスタントである Chatbot によるコミュニケーションがあります。この Chatbot は、人間の話し言葉を認識し、発信者が特定のフレーズで話さなくてもその意図を理解できます。発信者はパスワードの変更、アカウントの残高照会、予約などを行うのに、担当者と話す必要がありません。

翻訳

企業は、機械学習ベースの翻訳を使用して、従来の統計的で規則に基づいた翻訳アルゴリズムよりも、正確で自然な翻訳を提供します。世界中の言語のユーザー向けにウェブサイトやアプリケーションなどのコンテンツをローカライズし、大量のテキストを効率的に簡単に翻訳できます。

文字起こし

機械学習は、カスタマーサポートへの通話の文字起こし、音声/動画コンテンツの字幕生成など、多くの主要アプリケーションで使用できます。機械学習では、すべての単語についてタイムスタンプが付加されるので、テキストを探すことでオリジナルソース音声の頭出しが簡単にできます。

不正検出

機械学習を利用した不正検出は、不正行為の恐れがあるアクティビティを検知し、レビューのためにそのアクティビティにフラグを立てます。不正検出は典型的に、金融サービス業界において、金額、場所、当事者、時刻に基づいて取り引きにスコアを付けるモデルを使用し、正当な取り引きと不正な取り引きを分類するために用いられています。

医療

医療における機械学習は、コストの削減だけでなく、転帰を改善することによって医師が患者をより迅速に治療できるようにすることを可能にします。病院は、従来の X 線、超音波、CT スキャンといったテクノロジーを改良しています。患者報告データ、センサーデータ、その他多数のソースを含むさまざまなデータセットをスキャンプロセスに組み込むことで、機械学習アルゴリズムは正常な結果と異常な結果の違いを認識できます。

料金

開始方法

Amazon SageMaker または AWS Neuron SDK を使用して、トレーニング済みの機械学習モデルをコンパイルして Inf1 にデプロイできます。

Github で AWS Neuron を開始する
AWS Neuron 開発者フォーラムでサポートを受ける
• Amazon SageMaker を Github の Amazon SageMaker サンプルとともに使用して Inf1 にデプロイする方法を学ぶ