課題	AWS ソリューション	方法
手動データラベリング	Amazon Mechanical Turk	タスクを完了するためのオンデマンドでスケーラブルな人的労働力を提供します。
手動データラベリング	Amazon SageMaker Ground Truth	人間がラベル付けしたデータから Ground Truth をトレーニングすることによってラベル付けを自動化して、サービスが独立してデータにラベルを付けられるようにします。
データ処理の管理とスケーリング	Amazon SageMaker Processing	フルマネージドエクスペリエンスをデータ処理ワークロードに拡張します。既存のストレージまたはファイルシステムのデータソースに接続し、ジョブの実行に必要なリソースをスピンアップし、出力を永続的ストレージに保存し、ログとメトリクスを調べます。
モデルのトレーニングに必要な大量のデータの管理	Amazon EMR	膨大な量のデータを迅速かつコスト効率よく大規模に処理します。
モデルのトレーニングに必要な大量のデータの共有ファイルストレージ	Amazon S3	簡単にアクセスできる get/put アクセス形式で、長期耐久性のあるデータストレージを世界中で利用できるようにします。

課題	AWS ソリューション	方法
Jupyter ノートブックへのアクセス	ホスト型の Jupyter ノートブック	選択した EC2 インスタンスで実行されているホスト型の Jupyter ノートブック。
Jupyter ノートブックでの共有とコラボレーション	Amazon SageMaker ノートブック	フルマネージドの Jupyter ノートブックで、数秒で作業を開始し、ワンクリックで共有できます。コードの依存関係は自動的に検出されるため、他のユーザーとの協業が容易になります。同僚が同じ場所に保存された同じノートブックを入手できます。
アルゴリズムの作成	Amazon SageMaker の事前構築済みアルゴリズム	速度、規模、精度が最適化された高性能でスケーラブルな機械学習アルゴリズムを提供し、ペタバイト規模のデータセットでトレーニングを実行できます。
深層学習フレームワークの最適化	Amazon SageMaker	主要なフレームワークが自動的に設定され、高性能を実現するために最適化されます。フレームワークは手動でセットアップする必要がなく、組み込みのコンテナ内で使用できます。
複数の機械学習フレームワークの使用を開始する	AWS Deep Learning AMI	TensorFlow、PyTorch、Apache MXNet などの一般的な深層学習フレームワークとインターフェイスがプリインストールされた Amazon EC2 インスタンスをユーザーがすばやく起動できるようにします。
複数の機械学習フレームワークを使用してコンテナの使用を開始する	AWS Deep Learning Containers	深層学習フレームワークがプリインストールされた Docker イメージです。カスタムの機械学習環境をすばやく簡単にデプロイできます。

課題	AWS ソリューション	方法
時間とコスト重視な大規模トレーニング	AWS Trainium が提供する EC2 Trn1 インスタンス	AWS Trainium チップを搭載した Amazon EC2 Trn1 インスタンスは、高性能な深層学習用に構築されており、クラウドでの深層学習モデルのトレーニングに最適な料金パフォーマンスを実現します。
コスト重視のトレーニング	Habana Gaudi 搭載の EC2 DL1 インスタンス	Intel の会社である Habana Labs の Gaudi アクセラレーターを搭載した Amazon EC2 DL1 インスタンスは、深層学習モデルのトレーニング用に設計されたものです。深層学習モデルをトレーニングするために、最大 8 つの Gaudi アクセラレーターを活用し、現在の GPU ベースの EC2 インスタンスよりも最大 40% 優れた料金性能比を提供します。
時間的制約のある大規模トレーニング	Amazon EC2 P4 インスタンス	P4d インスタンスは、8 つの NVIDIA A100 Tensor Core GPU、400 Gbps インスタンスネットワーキング、および NVIDIA GPUDirect RDMA (リモートダイレクトメモリアクセス) を備えた Elastic Fabric Adapter (EFA) のサポートにより、クラウドで最高のパフォーマンスの機械学習トレーニングを提供します。 P4d インスタンスは、EC2 UltraClusters と呼ばれるハイパースケールクラスターにデプロイされ、機械学習デベロッパー、研究者、データサイエンティストに日常的にスーパーコンピュータークラスのパフォーマンスをもたらします。
時間的制約のある大規模トレーニング	Amazon EC2 P3 インスタンス	P3 インスタンスは、最大 8 つの NVIDIA® V100 Tensor Core GPU と最大 100 Gbps のネットワークスループットを備え、インスタンスごとに最大 1 ペタフロップスの混合精度パフォーマンスを提供します。
コスト重視の小規模トレーニング	Amazon EC2 G5 インスタンス	G5 インスタンスは、G4dn インスタンスと比較して、機械学習トレーニングで最大 3.3 倍のパフォーマンスを発揮します。
コスト重視の小規模トレーニング	Amazon EC2 G4 インスタンス	G4 インスタンスは、最大 65 TFLOP の FP16 パフォーマンスを提供し、小規模のトレーニングジョブに適したソリューションです。

課題	AWS ソリューション	方法
マルチノードトレーニング	Elastic Fabric Adapter	EFA を使用すると、お客様は、カスタムビルドのオペレーティングシステム (OS) バイパスハードウェアインターフェイスを使用して、高レベルのノード間通信を必要とするアプリケーションを大規模に実行できます。
高度にスケーラブルで複雑なコンテナオーケストレーション	Amazon Elastic Container Service (ECS)	ECS は、フルマネージド型のコンテナオーケストレーションサービスです。
高度にスケーラブルな Kubernetes オーケストレーション	Amazon Elastic Kubernetes Service (EKS)	Kubeflow を EKS と合わせて使用すると、機械学習ワークフローをモデル化し、分散型のトレーニングジョブを実行できます。
大規模なトレーニング	AWS Batch	Batch では、コンピューティングリソースの最適な数量と種類を、送信されたバッチジョブの量と具体的なリソース要件に基づいて動的にプロビジョニングします。
大規模なトレーニングのためのパフォーマンスの最適化	AWS ParallelCluster	AWS ParallelCluster は、大規模な機械学習トレーニングプロジェクトに必要なコンピューティングリソースと共有ファイルシステムを自動的にセットアップします。

課題	AWS ソリューション	方法
スケーラブルなストレージ	Amazon S3	S3 は、ストレージ層として 1 秒あたり数千のトランザクションを簡単に実現できます。
ストレージアクセスのスループットとレイテンシー	Amazon FSx for Lustre	S3 と統合された FSx for Lustre は、高スループットと一貫性のある低レイテンシーの共有ファイルストレージを提供します。
一元的なバッチ処理	Amazon Elastic File System (EFS)	EFS を使用すると、ストレージをプロビジョニングしたり、ネットワークファイルシステムの管理について心配したりすることなく、ノートブック環境から直接、大規模な機械学習データセットや共有コードに簡単にアクセスできます。
一時的な作業用ストレージ用の高い I/O パフォーマンス	Amazon Elastic Block Store (EBS)	EBS は、高性能ストレージのニーズに対して 1 桁ミリ秒のレイテンシーを実現にします。

課題	AWS ソリューション	方法
実験管理と追跡	Amazon SageMaker Experiments	トレーニング実験を簡単かつスケーラブルな方法で評価および整理し、何千ものトレーニング実験を整理し、実験アーティファクトをログに記録し、モデルをすばやく視覚化します。
モデルのデバッグ	Amazon SageMaker Debugger	デバッグデータを分析し、トレーニングプロセスの潜在的な異常に関する視覚的な指標を監視するための視覚的なインターフェイス。
モデルチューニング	Amazon SageMaker 自動モデルチューニング	何千ものアルゴリズムパラメータを調節してモデルを自動的にチューニングし、モデルが出し得る最も正確な予測に到達します。

課題	AWS ソリューション	方法
高コストと低パフォーマンス	Amazon EC2 Inf1 インスタンス	Inf1 インスタンスは、AWS が設計開発した高機能の機械学習推論チップである AWS Inferentia チップを最大 16 個搭載しています。
NVIDIA CUDA、CuDNN、または TensorRT ライブラリを使用したモデルの推論	Amazon EC2 G5 インスタンス	G5 インスタンスは、NVIDIA A10G Tensor Core GPU を最大 8 個搭載し、G4dn インスタンスと比較して機械学習の推論性能を最大 3 倍まで向上させることができます。
NVIDIA の CUDA、CuDNN、または TensorRT ライブラリを使用したモデルの推論	Amazon EC2 G4 インスタンス	G4 インスタンスには NVIDIA T4 GPU が搭載されており、CPU よりも最大 40 倍優れた低レイテンシスループットを実現します。
Intel AVX-512 Vector Neural Network Instructions (AVX512 VNNI) を利用するモデルの推論	Amazon EC2 C5 インスタンス	C5 インスタンスには Intel AVX-512 VNNI が含まれており、畳み込みなどの典型的な機械学習の演算速度を向上させ、幅広い分野の深層学習ワークロードで推論パフォーマンスを自動的に向上させます。
最適な料金/パフォーマンスのための適切なサイズの推論の高速化	Amazon Elastic Inference	Elastic Inference により、Amazon EC2 インスタンスに低コストの GPU を利用したアクセラレーションを取り入れることができます。
低レイテンシーの推論、ローカルデータ処理、またはストレージ要件	AWS Outposts	AWS Outposts は、AWS のインフラストラクチャ、AWS のサービス、API、およびツールを、データセンター、コロケーションスペース、オンプレミス施設のほぼすべてに拡張するフルマネージドサービスです。

課題	AWS ソリューション	方法
インフラストラクチャの複雑なスケーリング	AWS Cloudformation	CloudFormation では、プログラミング言語またはシンプルなテキストファイルを使用して、あらゆるリージョンとアカウントでアプリケーションに必要とされるすべてのリソースを、自動化された安全な方法でモデル化し、プロビジョニングできます。
インフラストラクチャの予測できないスケーラビリティ	AWS Auto Scaling	AWS Auto Scaling は、安定した予測可能なパフォーマンスを可能な限り低コストで維持するためにアプリケーションをモニタリングし、容量を自動で調整します。
EC2 インスタンスの予測できない使用	Amazon EC2 フリート	単一の API コールで、EC2 インスタンスタイプや購入モデルの間でキャパシティーをプロビジョンして、必要な規模、パフォーマンス、コストを達成できます。
モデルの精度の確保	Amazon SageMaker Model Monitor	本番稼働中の機械学習モデルの品質を継続的にモニタリングし、追加のツールを構築することなく、モデルの品質に偏差がある場合にアラートを受け取れます。
推論コストの管理	Amazon SageMaker マルチモデルエンドポイント	1 つのエンドポイントを 1 回クリックするだけで複数のモデルをデプロイし、1 つの提供コンテナを使用してサービスを提供して、多数のモデルをデプロイするためのスケーラブルで費用効果の高い方法をもたらします。

ユースケース	AWS ソリューション	方法
短期トレーニングジョブ	オンデマンド料金	オンデマンドインスタンスでは、実行するインスタンスに応じて、コンピューティング性能に対して時間あたりまたは秒あたりの料金が発生します。
開始/停止時間が柔軟なトレーニングジョブ	スポット料金	Amazon EC2 スポットインスタンスを使用すると、オンデマンド料金から最大 90% 割引で予備の Amazon EC2 コンピューティングキャパシティーをリクエストできます。
長期間にわたるさまざまなインスタンスタイプでの安定した機械学習ワークロード	Savings Plans	Savings Plans では、1 年または 3 年の期間に特定の量の処理能力を使用する契約を結ぶことにより、オンデマンドに比べて大幅に節約できます。

AWS Machine Learning インフラストラクチャ

幅広い機械学習サービスから選択

機械学習インフラストラクチャサービス

注目のお客様

数字で見る

利点

コンピューティング: トレーニング時間を数分に短縮し、推論をスーパーチャージ

ネットワーキング: 効率的な分散型トレーニングまたはスケールアウト推論のためのスケーラブルなインフラストラクチャ

ストレージ: データレイクを作成したり、ラベル付きデータを管理したりするための理想的なオプション

機械学習推論の業界で最も低いコスト

時間とトレーニングコストを最適化するための GPU インスタンスの幅広い選択肢が大規模に利用可能

主要なすべての機械学習フレームワークをサポート

フレームワークに応じた最適化

料金設定オプション

その他のリソース

Internet Explorer のサポートの終了