AWS Machine Learning インフラストラクチャ

高性能で費用効果が高く、スケーラブルなインフラストラクチャ

AWS での機械学習の規模は、他のいずれのサービスをも上回ります

さまざまな業界のより多くのお客様が、他のクラウドと比較して AWS を選択して、機械学習アプリケーションを構築、トレーニング、デプロイしています。AWS は、あらゆる機械学習プロジェクトやアプリケーション向けに、強力なコンピューティング、高速ネットワーキング、およびスケーラブルな高性能ストレージオプションといった幅広い選択肢を提供しています。

機械学習プロジェクトに同じものはなく、AWS を使用することで、パフォーマンスと予算の要件に合わせてインフラストラクチャをカスタマイズできます。チームに最適な機械学習フレームワークの使用から、機械学習モデルをホストするための適切なハードウェアプラットフォームの選択まで、AWS は幅広いサービスを提供してお客様のニーズを満たします。

企業は、レコメンデーションエンジン、オブジェクト検出、音声アシスタント、不正検出などに機械学習を活用する新しい方法を見つけています。機械学習はますます使われるようになってきていますが、機械学習モデルのトレーニングとデプロイには費用がかかり、モデルの開発時間は長く、変化するビジネス条件に対応するために適切な規模のインフラストラクチャを調達することは困難な場合があります。AWS機械学習インフラストラクチャサービスは、パフォーマンスが高く、費用対効果が高く、柔軟性が高いため、機械学習を採用する敷居を下げます。

AWS機械学習インフラストラクチャ: 高性能、費用効果が高く、柔軟性が高い (3:20)

幅広い機械学習サービスから選択

次の図は、AWS が提供するサービスの深さと幅を示しています。最上段に表示されているワークフローサービスにより、基盤となる機械学習インフラストラクチャの管理とスケーリングが簡単になります。次のレイヤーでは、AWS機械学習インフラストラクチャが主要な機械学習フレームワークをすべてサポートしていることを強調しています。 最下段は、機械学習インフラストラクチャの基盤ブロックとなるコンピューティング、ネットワーキング、およびストレージサービスの例を示しています。

幅広い機械学習サービスから選択

機械学習インフラストラクチャサービス

従来の機械学習開発は、複雑で、費用がかかり、反復的なプロセスでした。まず、モデルをトレーニングするためのサンプルデータを用意する必要があります。次に、デベロッパーは、モデルの構築に使用するアルゴリズムとフレームワークを選択する必要があります。次に、予測を行う方法についてモデルをトレーニングし、可能な限り最良の予測を行うようにモデルを調整する必要があります。最後に、モデルをアプリケーションと統合し、このアプリケーションをスケールするインフラストラクチャにデプロイする必要があります。

  • 準備
  • データサイエンティストは、モデルトレーニングに使用する前に、サンプルデータの調査と前処理、つまり「ラングリング」に多くの時間を費やすことがよくあります。データを前処理するには、通常、データをリポジトリにフェッチし、データをフィルタリングおよび変更してデータをクリーンアップします。これにより、不要な部分を除外して、データを探索、準備、または意味のあるデータセットに変換して、データにラベルを付けやすくします。

    課題 AWS ソリューション 方法
    手動データラベリング Amazon Mechanical Turk タスクを完了するためのオンデマンドでスケーラブルな人的労働力を提供します。
    手動データラベリング Amazon SageMaker Ground Truth 人間がラベル付けしたデータから Ground Truth をトレーニングすることによってラベル付けを自動化して、サービスが独立してデータにラベルを付けられるようにします。
    データ処理の管理とスケーリング Amazon SageMaker Processing フルマネージドエクスペリエンスをデータ処理ワークロードに拡張します。既存のストレージまたはファイルシステムのデータソースに接続し、ジョブの実行に必要なリソースをスピンアップし、出力を永続的ストレージに保存し、ログとメトリクスを調べます。
    モデルのトレーニングに必要な大量のデータの管理 Amazon EMR 膨大な量のデータを迅速かつコスト効率よく大規模に処理します。
    モデルのトレーニングに必要な大量のデータの共有ファイルストレージ
    Amazon S3 簡単にアクセスできる get/put アクセス形式で、長期耐久性のあるデータストレージを世界中で利用できるようにします。
  • 構築
  • トレーニングデータを利用できるようになったら、ニーズに合った学習スタイルの機械学習アルゴリズムを選択する必要があります。アルゴリズムは、教師あり学習、教師なし学習、または強化学習と大まかに分類できます。モデルの開発を支援するために、TensorFlow、Pytorch、MXNet などのさまざまな機械学習フレームワークがライブラリとツールとともに利用でき、開発が容易になります。

    課題 AWS ソリューション 方法
    Jupyter ノートブックへのアクセス ホスト型の Jupyter ノートブック 選択した EC2 インスタンスで実行されているホスト型の Jupyter ノートブック。
    Jupyter ノートブックでの共有とコラボレーション Amazon SageMaker ノートブック フルマネージドの Jupyter ノートブックで、数秒で作業を開始し、ワンクリックで共有できます。コードの依存関係は自動的に検出されるため、他のユーザーとの協業が容易になります。同僚が同じ場所に保存された同じノートブックを入手できます。
    アルゴリズムの作成 Amazon SageMaker の事前構築済みアルゴリズム 速度、規模、精度が最適化された高性能でスケーラブルな機械学習アルゴリズムを提供し、ペタバイト規模のデータセットでトレーニングを実行できます。
    深層学習フレームワークの最適化 Amazon SageMaker 主要なフレームワークが自動的に設定され、高性能を実現するために最適化されます。フレームワークは手動でセットアップする必要がなく、組み込みのコンテナ内で使用できます。
    複数の機械学習フレームワークの使用を開始する AWS Deep Learning AMI TensorFlow、PyTorch、Apache MXNet などの一般的な深層学習フレームワークとインターフェイスがプリインストールされた Amazon EC2 インスタンスをユーザーがすばやく起動できるようにします。
    複数の機械学習フレームワークを使用してコンテナの使用を開始する   AWS Deep Learning Containers 深層学習フレームワークがプリインストールされた Docker イメージです。カスタムの機械学習環境をすばやく簡単にデプロイできます。
  • トレーニング
  • モデルを構築した後、モデルをトレーニングするためのコンピューティング、ネットワーキング、およびストレージのリソースが必要です。モデルトレーニングの高速化によって、データサイエンティストや機械学習エンジニアは、より速く反復処理を行い、より多くのモデルをトレーニングし、精度を向上させています。モデルをトレーニングした後、モデルを評価して、推論の精度が許容できるかどうかを判断します。

    インスタンス

    課題
    AWS ソリューション            方法
    時間とコスト重視な大規模トレーニング AWS Trainium が提供する EC2 Trn1 インスタンス

    AWS Trainium チップを搭載した Amazon EC2 Trn1 インスタンスは、高性能な深層学習用に構築されており、クラウドでの深層学習モデルのトレーニングに最適な料金パフォーマンスを実現します。

    コスト重視のトレーニング Habana Gaudi 搭載の EC2 DL1 インスタンス

    Intel の会社である Habana Labs の Gaudi アクセラレーターを搭載した Amazon EC2 DL1 インスタンスは、深層学習モデルのトレーニング用に設計されたものです。深層学習モデルをトレーニングするために、最大 8 つの Gaudi アクセラレーターを活用し、現在の GPU ベースの EC2 インスタンスよりも最大 40% 優れた料金性能比を提供します。

    時間的制約のある大規模トレーニング Amazon EC2 P4 インスタンス P4d インスタンスは、8 つの NVIDIA A100 Tensor Core GPU、400 Gbps インスタンスネットワーキング、および NVIDIA GPUDirect RDMA (リモートダイレクトメモリアクセス) を備えた Elastic Fabric Adapter (EFA) のサポートにより、クラウドで最高のパフォーマンスの機械学習トレーニングを提供します。 P4d インスタンスは、EC2 UltraClusters と呼ばれるハイパースケールクラスターにデプロイされ、機械学習デベロッパー、研究者、データサイエンティストに日常的にスーパーコンピュータークラスのパフォーマンスをもたらします。
    時間的制約のある大規模トレーニング Amazon EC2 P3 インスタンス P3 インスタンスは、最大 8 つの NVIDIA® V100 Tensor Core GPU と最大 100 Gbps のネットワークスループットを備え、インスタンスごとに最大 1 ペタフロップスの混合精度パフォーマンスを提供します。
    コスト重視の小規模トレーニング Amazon EC2 G5 インスタンス

    G5 インスタンスは、G4dn インスタンスと比較して、機械学習トレーニングで最大 3.3 倍のパフォーマンスを発揮します。

    コスト重視の小規模トレーニング Amazon EC2 G4 インスタンス G4 インスタンスは、最大 65 TFLOP の FP16 パフォーマンスを提供し、小規模のトレーニングジョブに適したソリューションです。

    オーケストレーションサービス

    課題 AWS ソリューション 方法
    マルチノードトレーニング Elastic Fabric Adapter EFA を使用すると、お客様は、カスタムビルドのオペレーティングシステム (OS) バイパスハードウェアインターフェイスを使用して、高レベルのノード間通信を必要とするアプリケーションを大規模に実行できます。
    高度にスケーラブルで複雑なコンテナオーケストレーション Amazon Elastic Container Service (ECS) ECS は、フルマネージド型のコンテナオーケストレーションサービスです。
    高度にスケーラブルな Kubernetes オーケストレーション Amazon Elastic Kubernetes Service (EKS) Kubeflow を EKS と合わせて使用すると、機械学習ワークフローをモデル化し、分散型のトレーニングジョブを実行できます。
    大規模なトレーニング AWS Batch Batch では、コンピューティングリソースの最適な数量と種類を、送信されたバッチジョブの量と具体的なリソース要件に基づいて動的にプロビジョニングします。
    大規模なトレーニングのためのパフォーマンスの最適化 AWS ParallelCluster AWS ParallelCluster は、大規模な機械学習トレーニングプロジェクトに必要なコンピューティングリソースと共有ファイルシステムを自動的にセットアップします。

    ストレージ

    課題 AWS ソリューション 方法
    スケーラブルなストレージ Amazon S3 S3 は、ストレージ層として 1 秒あたり数千のトランザクションを簡単に実現できます。
    ストレージアクセスのスループットとレイテンシー Amazon FSx for Lustre S3 と統合された FSx for Lustre は、高スループットと一貫性のある低レイテンシーの共有ファイルストレージを提供します。
    一元的なバッチ処理 Amazon Elastic File System (EFS) EFS を使用すると、ストレージをプロビジョニングしたり、ネットワークファイルシステムの管理について心配したりすることなく、ノートブック環境から直接、大規模な機械学習データセットや共有コードに簡単にアクセスできます。
    一時的な作業用ストレージ用の高い I/O パフォーマンス Amazon Elastic Block Store (EBS) EBS は、高性能ストレージのニーズに対して 1 桁ミリ秒のレイテンシーを実現にします。

    フルマネージドサービス

    課題 AWS ソリューション 方法
    実験管理と追跡 Amazon SageMaker Experiments トレーニング実験を簡単かつスケーラブルな方法で評価および整理し、何千ものトレーニング実験を整理し、実験アーティファクトをログに記録し、モデルをすばやく視覚化します。
    モデルのデバッグ Amazon SageMaker Debugger デバッグデータを分析し、トレーニングプロセスの潜在的な異常に関する視覚的な指標を監視するための視覚的なインターフェイス。
    モデルチューニング Amazon SageMaker 自動モデルチューニング 何千ものアルゴリズムパラメータを調節してモデルを自動的にチューニングし、モデルが出し得る最も正確な予測に到達します。
  • デプロイ
  • トレーニングを完了し、モデルを希望のレベルの精度に最適化したら、モデルを本番環境に投入して予測を行います。推論は、実際に機械学習のコストの大部分を占めています。お客様によると、機械学習の推論は、機械学習のワークロードを実行するための全体的な運用コストの最大 90% を占める可能性があるとのことです。

    インスタンス

    課題 AWS ソリューション 方法
    高コストと低パフォーマンス Amazon EC2 Inf1 インスタンス Inf1 インスタンスは、AWS が設計開発した高機能の機械学習推論チップである AWS Inferentia チップを最大 16 個搭載しています。

    NVIDIA CUDA、CuDNN、または TensorRT ライブラリを使用したモデルの推論

    Amazon EC2 G5 インスタンス

    G5 インスタンスは、NVIDIA A10G Tensor Core GPU を最大 8 個搭載し、G4dn インスタンスと比較して機械学習の推論性能を最大 3 倍まで向上させることができます。

    NVIDIA の CUDA、CuDNN、または TensorRT ライブラリを使用したモデルの推論 Amazon EC2 G4 インスタンス G4 インスタンスには NVIDIA T4 GPU が搭載されており、CPU よりも最大 40 倍優れた低レイテンシスループットを実現します。
    Intel AVX-512 Vector Neural Network Instructions (AVX512 VNNI) を利用するモデルの推論 Amazon EC2 C5 インスタンス C5 インスタンスには Intel AVX-512 VNNI が含まれており、畳み込みなどの典型的な機械学習の演算速度を向上させ、幅広い分野の深層学習ワークロードで推論パフォーマンスを自動的に向上させます。
    最適な料金/パフォーマンスのための適切なサイズの推論の高速化 Amazon Elastic Inference Elastic Inference により、Amazon EC2 インスタンスに低コストの GPU を利用したアクセラレーションを取り入れることができます。
    低レイテンシーの推論、ローカルデータ処理、またはストレージ要件
    AWS Outposts AWS Outposts は、AWS のインフラストラクチャ、AWS のサービス、API、およびツールを、データセンター、コロケーションスペース、オンプレミス施設のほぼすべてに拡張するフルマネージドサービスです。

    スケーリング推論

    課題 AWS ソリューション 方法
    インフラストラクチャの複雑なスケーリング AWS Cloudformation CloudFormation では、プログラミング言語またはシンプルなテキストファイルを使用して、あらゆるリージョンとアカウントでアプリケーションに必要とされるすべてのリソースを、自動化された安全な方法でモデル化し、プロビジョニングできます。
    インフラストラクチャの予測できないスケーラビリティ AWS Auto Scaling AWS Auto Scaling は、安定した予測可能なパフォーマンスを可能な限り低コストで維持するためにアプリケーションをモニタリングし、容量を自動で調整します。
    EC2 インスタンスの予測できない使用 Amazon EC2 フリート 単一の API コールで、EC2 インスタンスタイプや購入モデルの間でキャパシティーをプロビジョンして、必要な規模、パフォーマンス、コストを達成できます。
    モデルの精度の確保 Amazon SageMaker Model Monitor 本番稼働中の機械学習モデルの品質を継続的にモニタリングし、追加のツールを構築することなく、モデルの品質に偏差がある場合にアラートを受け取れます。
    推論コストの管理 Amazon SageMaker マルチモデルエンドポイント 1 つのエンドポイントを 1 回クリックするだけで複数のモデルをデプロイし、1 つの提供コンテナを使用してサービスを提供して、多数のモデルをデプロイするためのスケーラブルで費用効果の高い方法をもたらします。
トヨタ

「P3 インスタンスは、機械学習モデルのトレーニング時間を数日から数時間に短縮するのに役立ちました。追加の GPU メモリとより効率的なフロートフォーマットにより、より複雑なモデルをさらに高速にトレーニングできるため、P4d インスタンスの利用を楽しみにしています」

Intuit

Intuit は AWS を最大限に活用しており、AWS を利用して顧客により良いサービスを提供しています。Intuit は Amazon SageMaker を使用して機械学習モデルを短期間で大規模にトレーニングし、モデルのデプロイに必要な時間を 90 パーセント削減しました。詳細はこちら。

GE Healthcare

「以前の GPU クラスターでは、Progressive GAN などの複雑な AI モデルをシミュレーション用にトレーニングし、結果を確認するのに数日かかりました。新しい P4d インスタンスを使用すると、処理時間が数日から数時間に短縮されました。モデルのトレーニング速度が 2 倍から 3 倍に上がったみたいです」

Capital One

Capital One は、機械学習を使用することで、データをインサイトに変え、顧客に代わって迅速なイノベーションを実現しています。Capital One は Amazon S3 を含む AWS のサービスを使用して機械学習によるイノベーションを推進しています。詳細。

Zillow

Zillow は、Amazon EMR で Spark を利用して機械学習アルゴリズムを実行しています。これにより、スケーラブルなクラスターをすばやく作成することができます。また、分散処理機能を使用して、大規模なデータセットをほぼリアルタイムで処理し、機能を作成し、数百万の機械学習モデルをトレーニングおよびスコアリングしています。詳細はこちら。

数字で見る

パフォーマンス

2.5 倍向上

前世代の P3 インスタンスと比較して P4d の深層学習パフォーマンスが 2.5 倍向上し、クラウドで最高のパフォーマンスをもたらします。

パフォーマンス

62 分

これは、2,048 GPU を備えた 256 個の P3dn.24xlarge インスタンスを使用して TensorFlow で BERT をトレーニングするためのレコード設定時間です。

低コスト

40% 削減

G4 インスタンスと比較して Inf1 インスタンスの推論あたりのコストが 40% 低く、クラウドでの推論あたりのコストが最も低くなっています。

利用可能な国や地域

世界中の 22 のリージョン

多くの AWS 機械学習インフラストラクチャサービスで利用できる最大 69 のアベイラビリティーゾーンを含む、世界中の 22 の地理的リージョンでご利用いただけます。

利点

  • 高性能
  • 多くの場合、データサイエンティストと機械学習エンジニアの開発効率は、深層学習モデルをトレーニングして新しい機能を組み込んだり、予測精度を向上させたり、データドリフトを調整したりできる頻度によって制限されます。AWS は、高性能のコンピューティング、ネットワーキング、およびストレージインフラストラクチャを提供し、従量制料金で幅広く利用できます。そのため、開発チームは必要に応じてモデルをトレーニングでき、インフラストラクチャがイノベーションの妨げとなることを防ぎます。

    コンピューティング: トレーニング時間を数分に短縮し、推論をスーパーチャージ

    AWS は、業界初の機械学習トレーニングおよび推論専用のインスタンスを提供します。

    AWS Trainium チップを搭載した Amazon EC2 Trn1 インスタンスは、ハイパフォーマンスでコスト効率の高い深層学習のトレーニング専用に構築されています。このインスタンスは、業界をリードするパフォーマンスを提供すると同時に、同等の GPU ベースのインスタンスと比較して、トレーニングにかかるコストを最大 50% 削減することができます。Trn1 インスタンスは、最大 16 個の AWS Trainium チップを搭載しています。各チップには、 深層学習アルゴリズム用に構築された 2 つの第 2 世代 NeuronCore アクセラレーターが搭載されています。Trn1 インスタンスは、最大 800 Gbps の Elastic Fabric Adapter (EFA) ネットワーク帯域幅を備えた最初の EC2 インスタンスです。これらのチップは EC2 UltraClusters にデプロイされ、最大 30,000 個の Trainium アクセラレーターをスケールアップすることが可能で、ノンブロッキングのペタビット級ネットワークで相互接続され、最大 6.3 エクサフロップスのコンピューティングを提供します。

    Amazon EC2 Trn1

    トレーニング済みモデルを本番環境にデプロイするために、Amazon EC2 Inf1 インスタンスは、クラウドでの高パフォーマンスかつ最小コストの機械深層学習推論を実現します。これらのインスタンスでは、AWS が設計および構築したハイパフォーマンス機械学習推論チップである AWS Inferentia チップを搭載しています。Inf1 インスタンスはインスタンスあたり 1~16 基の AWS Inferentia チップを使えば、最大 2000 TOPS (毎秒 1 兆回の演算数) までスケールインできます。

    Amazon EC2 Inf1

    ネットワーキング: 効率的な分散型トレーニングまたはスケールアウト推論のためのスケーラブルなインフラストラクチャ

    大きなモデルのトレーニングには時間がかかり、モデルが大きく複雑になるほど、トレーニングにかかる時間が長くなります。AWS は、お客様がマルチノードデプロイを拡張してトレーニング時間を短縮するのに役立つネットワーキングソリューションをいくつも用意しています。Elastic Fabric Adapter (EFA) は Amazon EC2 インスタンス用のネットワークインターフェイスで、お客様は AWS 上で高いレベルのノード間通信を必要とするアプリケーションを実行できます。カスタムビルドのオペレーティングシステム (OS) バイパスハードウェアインターフェイスは、効率的なスケーリングに不可欠なインスタンス間通信のパフォーマンスを向上させます。EFA を使用すると、NVIDIA Collective Communications Library (NCCL) を使用した機械学習トレーニングアプリケーションを数千の GPU に拡張できます。 1 インスタンスあたり最大 400 Gbps のネットワーク帯域幅と NVIDIA GPUDirect RDMA (リモートダイレクトメモリアクセス) を組み合わせて、インスタンス間で低レイテンシーの GPU 間通信を実現します。また、AWS クラウドのオンデマンドの弾力性と柔軟性を備えた高価なオンプレミス GPU クラスターのパフォーマンスをもたらします。

    Page-Illo_EC2 Overviews and Features_Enhanced Networking and EFA.png

    ストレージ: データレイクを作成したり、ラベル付きデータを管理したりするための理想的なオプション

    あらゆる業界のあらゆる規模の組織が、データレイクを使用して、管理する必要のあるコストから、データを貴重なビジネスインサイトを導き出したり、機械学習の助けを借りてカスタマーエクスペリエンスを向上させるために使用できるビジネス資産に変換しています。Amazon Simple Storage Service (S3) は、構造化データと非構造化データ向けの最大級かつ最もパフォーマンスに優れたオブジェクトストレージサービスであり、データレイクの構築に最適のストレージサービスです。Amazon S3 を使用すると、99.999999999% (イレブンナイン) の耐久性でデータを保護する安全な環境で、あらゆるサイズのデータレイクをコスト効率よく構築し、スケールすることができます。分散型トレーニングでラベル付きデータへのより高速なアクセスが必要な場合、Amazon FSx for Lustre は、ミリ秒未満のレイテンシーと数百ギガバイト/秒に拡張できるスループットに最適化されたパフォーマンスをもたらします。FSx for Lustre は Amazon S3 と統合されているため、Lustre ファイルシステムでデータセットを簡単に処理できます。S3 バケットとリンクさせると、FSx for Lustre ファイルシステムは S3 オブジェクトをファイルとして透過的に表示します。これにより変更されたデータを S3 に書き込むことができます。

    Amazon Simple Storage Service (S3)
  • 高い費用対効果
  • 組織は、これまでにないアプリケーションを構築するために深層学習を急速に採用しています。モデルの複雑さが急速に増加することと相まって、機械学習アプリケーションを構築、トレーニング、デプロイするためのコストはすぐに膨らみます。企業が機械学習の調査と実験から大規模なアプリケーションのデプロイに移行する中、AWS はアプリケーション開発ライフサイクル全体にわたって高いパフォーマンスと低コストのインフラストラクチャサービスの理想的な組み合わせを提供しています。

    機械学習推論の業界で最も低いコスト

    機械学習の推論は、本番環境で機械学習アプリケーションを実行するための全体的な運用コストの最大 90% を占める可能性があります。Amazon EC2 Inf1 インスタンスは、クラウドでの高パフォーマンスかつ最小コストの機械学習推論を実現します。Inf1 インスタンスは機械学習推論アプリケーションをサポートするため、1 から構築されました。同インスタンスは、AWS が設計開発した高機能の機械学習推論チップである AWS Inferentia チップを最大 16 個搭載しています。AWS Inferentia の各チップは低電力で最大 128 TOPS (1 秒間に数兆回の操作) のパフォーマンスをサポートしており、高いパフォーマンス効率を実現します。

    Amazon EC2 Inf1

    本番環境でモデルを実行するために GPU を必要とするアプリケーションの場合、Amazon EC2 G4 インスタンスが業界で最も費用効果の高い GPU インスタンスです。NVIDIA T4 GPU を搭載したインスタンスはさまざまなサイズで利用でき、アクセスする GPU の数 (1 つまたは複数) や、vCPU の数およびメモリの容量が異なるため、ご自分のアプリケーションに適したインスタンスサイズを柔軟に選択できます。

    Amazon EC2 G4

    すべての機械学習モデルが同じであるとは限りません。また、モデルが異なれば、ハードウェアアクセラレーションのレベルも異なります。Intel ベースの Amazon EC2 C5 インスタンスは vCPU 当たりの料金が Amazon EC2 ファミリーで最も低く、大量の演算を行う高度なワークロードに最適です。これらのインスタンスは、インテルの Deep Learning Boost をサポートし、機械学習モデルを本番環境で実行するためのパフォーマンスとコストの理想的なバランスを実現します。

    Amazon EC2 C5

    Amazon Elastic Inference では、Amazon EC2 インスタンス、Amazon SageMaker インスタンスまたは Amazon ECS タスクに低コストの による GPU アクセラレーションをアタッチすることで、深層学習の推論を実行するコストを最大 75% まで削減できます。

    Amazon Elastic Inference

    時間とトレーニングコストを最適化するための GPU インスタンスの幅広い選択肢が大規模に利用可能

    機械学習アプリケーションのタイプに応じて、お客様は開発サイクルを最適化して、機械学習モデルのトレーニングにかかる時間を短縮するか、トレーニングの総コストを削減することを好みます。多くの場合、トレーニングコストには、トレーニングコストだけでなく、機械学習エンジニアやデータサイエンティストがモデルの最適化に費やすことができたであろうアイドル時間の機会費用も含まれます。

    Amazon EC2 G4 インスタンスは、業界で最も費用効果の高い GPU プラットフォームを提供します。このインスタンスは、それほど複雑でないモデルのトレーニングに最適であり、トレーニングまでの時間的制約があまりない企業や機関に最適です。G4 インスタンスは、最大 8 つの NVIDIA T4 GPU へのアクセスを提供し、それぞれが最大 65 TFLOP の FP16 パフォーマンスを実現します。

    Amazon EC2 G4

    Amazon EC2 P4 インスタンスは、クラス最高のシングルインスタンスと分散型トレーニングパフォーマンスを提供します。これにより、エンジニアリングチームはモデルの反復時間を大幅に短縮し、市場投入までの時間を削減し、全体的なエンジニアリング費用を最適化できます。このインスタンスは、前世代の P3 インスタンスよりもコストを最大 60% 削減でき、Spot を使用してすべての EC2 料金設定オプションを介して最大 90% の割引でデプロイできます。GPU とハードウェア機械学習アクセラレーターのパフォーマンスは 18 か月ごとに少なくとも 2 倍向上するため、従量制料金モデルで AWS インフラストラクチャを使用することで、最高の料金パフォーマンスを活用できます。貴重な CapEx を保管寿命が限られているオンプレミスクラスターに取られることはありません。

    Amazon EC2 P4

    Amazon EC2 P3 インスタンスと P3dn インスタンスは、クラウド内でハイパフォーマンスコンピューティングを提供します。最大 8 個の NVIDIA® V100 Tensor Core GPU を搭載し、機械学習と HPC アプリケーション向けに最大 100 Gbps のネットワークスループットを実現します。これらのインスタンスは、インスタンスごとに最大 1 ペタフロップの混合精度のパフォーマンスを提供し、機械学習とハイパフォーマンスコンピューティングアプリケーションを大幅に加速します。P3 および P3dn インスタンスは 4 つのサイズで利用でき、最大 8 つの GPU と 96 の vCPU を提供し、世界中の 18 の AWS リージョンでご利用いただけます。

    Amazon EC2 P3 および P3dn インスタンス
  • 柔軟性が高い
  • 主要なすべての機械学習フレームワークをサポート

    TensorFlow や PyTorch などのフレームワークは、デベロッパーがモデルの全体的なロジックとデータフローに集中できるようにすることで、機械学習モデルの構築の実装を処理する際の細かな点の多くを抽象化します。機械学習アプリケーションを構築している企業の 70% 以上が、チームがさまざまな機械学習フレームワークを組み合わせて使用していると述べています。AWS 機械学習インフラストラクチャは、一般的な深層学習フレームワークをすべてサポートしているため、チームは好みや開発効率に合わせて適切なフレームワークを選択できます。

    TensorFlow
    PyTorch
    MXNet
    Keras
    Gluon
    Horovod

    フレームワークに応じた最適化

    AWS では、お客様が AWS で機械学習ワークロードを実行できるだけでなく、お客様に最適な機械学習フレームワークまたはインフラストラクチャサービスを選択するための究極の自由を享受できるようにすることに重点を置いています。AWS インフラストラクチャサービスでモデルを効果的にトレーニングおよびデプロイするためのソフトウェア最適化は、最も一般的な機械学習フレームワーク (TensorFlow、PyTorch、MXNet) と統合されています。これにより、お客様は特定のフレームワークやハードウェアアーキテクチャに制約されることなく、好みのフレームワークを引き続き使用できます。フレームワークレベルで運用することにより、お客様は、特定のハードウェアアーキテクチャやクラウドプロバイダーに縛られることなく、常にニーズに最適なソリューションを自由に選択できます。

    AWS Neuron は、AWS Inferentia と AWS Trainium チップのための SDK です。AWS Neuron を使用することで、AWS Trainium ベースの Amazon EC2 Trn1 インスタンスを使用して、ハイパフォーマンスかつコスト効率の高い機械学習トレーニングを実行できます。また、AWS Inferentia ベースの Amazon EC2 Inf1 インスタンスを使用することで、ハイパフォーマンスかつ低レイテンシーの推論を実行することができます。AWS Neuron は、TensorFlow、PyTorch、MXNet などの一般的なフレームワークとネイティブに統合されています。EC2 Trn1 インスタンスによるトレーニングと EC2 Inf1 インスタンスによる推論を高速化するために、事前にトレーニングしたモデルを使用し、フレームワーク内から数行のコードを変更するだけでよいのです。

    AWS Neuron

    効率的なマルチノード/分散型トレーニングをサポートするために、AWS は Elastic Fabric Adapter (EFA) を NVIDIA Collective Communications Library (NCCL) と統合しました。これは、1 つのノード内または複数ノード間で複数の GPU 間で通信するためのライブラリです。AWS Neuron と同様に、お客様は引き続き選択した機械学習フレームワークを使用してモデルを構築し、AWS インフラストラクチャのバックグラウンドでの最適化を活用できます。

    Nvidia

料金設定オプション

機械学習のトレーニングと推論のワークロードは、定常状態 (大規模な人口の写真のタグ付けを 1 時間ごとにバッチ処理することなど)、スパイク (新しいトレーニングジョブの開始やプロモーション期間中のレコメンデーションの検索など)、またはその両方の特性を示す可能性があります。AWSには、インフラストラクチャのパフォーマンスとコストを最適化するのに役立つ料金設定オプションとソリューションがあります。

料金設定オプション

 

 

A - 時間的制約のない機械学習トレーニングジョブなど、柔軟でフォールトトレラントなワークロードにスポットインスタンスを使用する

B - 短期の機械学習トレーニングジョブなど、新しいまたはステートフルな急増しているワークロードにオンデマンドインスタンスを使用する

C - 安定した推論ワークロードなどの既知/定常状態のワークロードに Savings Plans を使用する

ユースケース AWS ソリューション 方法
短期トレーニングジョブ オンデマンド料金 オンデマンドインスタンスでは、実行するインスタンスに応じて、コンピューティング性能に対して時間あたりまたは秒あたりの料金が発生します。
開始/停止時間が柔軟なトレーニングジョブ スポット料金 Amazon EC2 スポットインスタンスを使用すると、オンデマンド料金から最大 90% 割引で予備の Amazon EC2 コンピューティングキャパシティーをリクエストできます。
長期間にわたるさまざまなインスタンスタイプでの安定した機械学習ワークロード Savings Plans Savings Plans では、1 年または 3 年の期間に特定の量の処理能力を使用する契約を結ぶことにより、オンデマンドに比べて大幅に節約できます。