Amazon EC2 Inf1 インスタンス

クラウド上で、ハイパフォーマンスかつ最小のコストで機械学習推論を実現

Amazon EC2 Inf1 インスタンスは、機械学習推論アプリケーションをサポートするため、全く新規に構築されました。Inf1 インスタンスでは、AWS が設計、開発した、ハイパフォーマンス機械学習推論チップである AWS Inferentia チップを 16 基まで利用できます。加えて、推論チップを最新のカスタム第 2 世代インテル® Xeon® スケーラブルプロセッサおよび最大 100 Gbps のネットワークと組み合わせることにより、ハイスループットの推論を可能にしました。 このパワフルな構成により、Inf1 インスタンスは、すでにクラウドで利用可能な機械学習推論インスタンスで最も低コストなインスタンスである Amazon EC2 G4 インスタンスと比較しても、推論作業あたり 3 倍のスループット、40% のコスト削減を実現しました。Inf1 インスタンスを使用すれば、顧客は、画像認識、音声認識、自然言語処理、パーソナライズ、不正検知といった大規模な機械学習推論アプリケーションを、クラウドで最小のコストで実行することができます。

Inf1 インスタンス

多種多様な業界の顧客が、パーソナライズされたお勧めショッピング、オンラインのコンテンツモデレーションによる安全性とセキュリティ、chatbot によるカスタマーエンゲージメントの向上などのアプリケーションで必要な一般的なユースケースに対応するため、機械学習に注目しています。顧客は、可能な限り最高のエンドユーザーエクスペリエンスを提供できるよう、自身の機械学習アプリケーションのためにより多くのパフォーマンスを望んでいます。

Amazon EC2 Inf1 インスタンスは、ハイパフォーマンスで、クラウドでコスト最小の機械学習推論を実現しました。機械学習のワークフローは、TensorFlow、PyTorch、MXNet といった一般的な機械学習フレームワークのいずれかでモデルを構築し、P3 や P3dn のような GPU インスタンスを使用してモデルのトレーニングを行うことにより、始めることができます。機械学習モデルのトレーニングが皆様の要件を満たせる程度まで進んだら、Inf1 インスタンス上のモデルを、AWS Neuron を使用してデプロイできます。これは、特化したソフトウェア開発キット (SDK) で、Inferentia チップの機械学習推論のパフォーマンスを最適化するコンパイラー、ランタイム、およびプロファイリングツールから構成されています。Neuron は、AWS Deep Learning AMI には事前にインストールされており、皆様のカスタム環境にもフレームワークなしでインストールできます。加えて、Neuron は AWS Deep Learning ContainersAmazon SageMaker にも事前インストールされます。これらは機械学習で成功を収めるための最も容易な方法です。

利点

推論作業あたり最大 40% のコスト削減

Inf1 インスタンスは、高いスループットにより、クラウドで最も低コストな推論を実現しました。これは、すでにクラウドで利用可能な機械学習推論インスタンスで最も低コストなインスタンスである Amazon EC2 G4 インスタンスと比較しても、推論作業あたり40% のコスト削減となっています。機械学習推論は、機械学習ワークロードを実行する際における運用コスト全体の最大 90% を占めているので、結果として大幅なコスト節約が可能になっています。

最大 3 倍のスループット

Inf1 インスタンスは、バッチ推論アプリケーションで、Amazon EC2 G4 インスタンスの最大 3 倍という高いスループットを発揮します。写真のタグ付けのようなバッチ推論アプリケーションは、推論のスループット、つまり 1 秒あたり処理できる推論数の影響を大きく受けます。インスタンスごとに 1~16 基の AWS Inferentia チップを使用できるので、Inf1 インスタンスは最大 2000 TOPS (Tera Operations per Second、毎秒 1 兆回の演算数) までスケーリングできます。

極めて低いレイテンシー

Inf1 インスタンスは、リアルタイムアプリケーション向けに、極めて低いレイテンシーを実現します。 音声認識のような、リアルタイムの推論アプリケーションは、推論がユーザーの入力に素早く反応することを必要としており、推論のレイテンシーの影響を大きく受けます。Inf1 インスタンスで使用される、AWS Inferentia チップの大規模なオンチップメモリは、機械学習モデルをチップに直接キャッシングすることを可能にします。これにより、推論中に外部メモリリソースにアクセスする必要がなくなるので、帯域幅に影響を及ぼすことなくレイテンシーを低くすることができます。

使いやすさ

Inf1 インスタンスは使いやすく、TensorFlow、PyTorch、MXNet といった最も一般的な機械学習フレームワークを使用してトレーニングを行ったモデルをサポートする際のコードの変更は、もし必要だとしても、ごく僅かですみます。

異なる機械学習モデルに対応できる柔軟性

AWS Neuron を使用する Inf1 インスタンスは、一般的に使用されている機械学習モデルの多くをサポートしています。これには物体検知 (single shot detector、SSD) や画像認識/分類のための ResNet、さらには自然言語処理と翻訳のための Transformer と BERT が含まれます。

複数のデータタイプをサポート

Inf1 インスタンスは、INT8、BF16、および複合精度の FP16 といった、複数のデータタイプをサポートしており、それによって幅広いモデルとパフォーマンスのニーズをサポートします。

Amazon SageMaker (間もなく Inf1 インスタンスをサポート)

Amazon SageMaker は、トレーニングを行ったモデルを Amazon EC2 Inf1 インスタンス上の本番稼働用環境に簡単にデプロイできるようにします。1 回のクリックだけで、リアルタイムデータやバッチデータに対する予測を開始できます。Amazon SageMaker は、機械学習のワークフロー全体をカバーする完全マネージド型サービスです。データをラベル付けして準備し、アルゴリズムを選択して、モデルのトレーニングを行い、デプロイのための調整と最適化を行い、予測を行い、実行します。モデルをより少ない労力と費用で、本番稼働させることができます。モデルは、Amazon SageMaker Inf1インスタンスの Auto Scaling クラスターで複数のアベイラビリティーゾーンに分散してデプロイされ、高いパフォーマンスと可用性が発揮されます。

詳細 »

仕組み

Inf1 と AWS Inferentia の使用方法

AWS Inferentia チップ

AWS Inferentia は、低コストで高パフォーマンスを実現するよう AWS によって設計、開発された機械学習推論チップです。それぞれの AWS Inferentia チップには 4 つの Neuron コアがあり、FP16、BF16、および INT8 データタイプをサポートします。AWS Inferentia チップは、大規模なオンチップメモリを特徴としています。大規模なモデルのキャッシュを可能にし、チップ外に保存する必要をなくします。加えて、AWS Inferentia チップに特化した SDK である AWS Neuron SDK は、大規模なモデルを高速相互接続を使用する複数の Inferentia チップに分割して、強力な推論処理パイプラインを実現します。

詳細 >>

AWS Neuron SDK

AWS Neuron はAWS Inferentia チップに特化した SDK で、Inferentia チップの機械学習推論のパフォーマンスを最適化します。AWS Inferentia チップ用のコンパイラ、ランタイム、およびプロファイリングツールから構成されており、EC2 Inf1 インスタンスに基づき、 開発者が高パフォーマンスで低レイテンシーの推論ワークロードを Inferentia 上で実行できるようにします。

詳細 >>

ユースケース

レコメンデーション

機械学習は、パーソナライズされた製品やコンテンツの推奨事項、カスタマイズされた検索結果、ターゲットを絞ったマーケティングプロモーションに力を注いで、カスタマーエンゲージメントを向上させるために、ますます導入されるようになっています。

予測

今日の企業は、製品の需要、リソースのニーズ、あるいは財務業績といった将来のビジネス成果を正確に予測するために、簡単なスプレッドシートから複雑な財務計画ソフトウェアにいたるまで、あらゆるツールを活用しています。これらのツールは一連の時系列データを確かめることで予測を立てますが、こうしたデータは時系列データと呼ばれます。企業はますます機械学習を利用し、時系列データを他の変数と結びつけて、予測を立てるようになっています。

画像および動画分析

今日、機械学習は物体、人物、テキスト、場面、活動を識別するため、また、画像や動画に含まれている不適切なコンテンツを検出するために用いられています。加えて、画像や動画の人物分析と認識は、顔を検出、分析、比較して、多岐にわたるユーザー検証、人数計数、公共安全のユースケースに使えます。

高度なテキスト分析

機械学習は、膨大な数のテキスト内の特定の関心項目 (アナリストレポートで会社名を見つけるなど) を正確に特定することに特に優れており、言語の中に隠された感情 (マイナスのレビューやカスタマーサービスエージェントと顧客の積極的なのやりとりの特定) をほぼ無限の規模で学習することができます。

ドキュメント分析

機械学習は、実質的にどのような種類のドキュメントでも即座に読み取ってテキストやデータを正確に抽出するために使用できます。人手による労力やカスタムコードは必要ありません。ドキュメントのワークフローを迅速に自動化でき、何百万ページものドキュメントも数時間で処理できます。

音声

企業は機械学習を使用して、文章をリアルな音声に変換できます。テキスト読み上げができるアプリケーションを作成できるため、まったく新しいタイプの音声対応製品を構築できます。テキスト読み上げ (TTS) サービスは、高度な深層学習技術を使用して、人間の声のような音声を合成します。

対話型エージェント

AI はコールセンターにおけるカスタマーエクスペリエンスの改善に重要な役割を果たしており、その 1 つにインテリジェントな自然言語を操るバーチャルアシスタントである Chatbot によるコミュニケーションがあります。この Chatbot は、人間の話し言葉を認識し、発信者が特定のフレーズで話さなくてもその意図を理解できます。発信者はパスワードの変更、アカウントの残高照会、予約などを行うのに、担当者と話す必要がありません。

翻訳

企業は、機械学習ベースの翻訳を使用して、従来の統計的で規則に基づいた翻訳アルゴリズムよりも、正確で自然な翻訳を提供します。世界中の言語のユーザー向けにウェブサイトやアプリケーションなどのコンテンツをローカライズし、大量のテキストを効率的に簡単に翻訳できます。

文字起こし

機械学習は、カスタマーサポートへの通話の文字起こし、音声/動画コンテンツの字幕生成など、多くの主要アプリケーションで使用できます。機械学習では、すべての単語についてタイムスタンプが付加されるので、テキストを探すことでオリジナルソース音声の頭出しが簡単にできます。

不正検出

機械学習を利用した不正検出は、不正行為の恐れがあるアクティビティを検知し、レビューのためにそのアクティビティにフラグを立てます。不正検出は典型的に、金融サービス業界において、金額、場所、当事者、時刻に基づいて取り引きにスコアを付けるモデルを使用し、正当な取り引きと不正な取り引きを分類するために用いられています。

医療

医療における機械学習は、コストの削減だけでなく、転帰を改善することによって医師が患者をより迅速に治療できるようにすることを可能にします。病院は、従来の X 線、超音波、CT スキャンといったテクノロジーを改良しています。患者報告データ、センサーデータ、その他多数のソースを含むさまざまなデータセットをスキャンプロセスに組み込むことで、機械学習アルゴリズムは正常な結果と異常な結果の違いを認識できます。

料金