Amazon Web Services ブログ

AWS における生成 AI インフラストラクチャ

生成 AI モデルの構築やトレーニング、そして正確で洞察に満ちた出力の予測と提供には、大規模なインフラストラクチャを必要とします。

大規模言語モデル(LLM)や基礎モデル(FM)が生成する高品質の合成テキスト、画像、その他のメディアの出力には、大量のデータが必要です。 まず、モデルのトレーニングに使用されるデータセットには、一般的に 10 億個ほどの変数(パラメータ)が含まれています。 このペタバイト単位のような膨大なデータを処理するには、何百ものハードウェアアクセラレーター(ML 専用シリコンまたは GPU が組み込まれている)が必要になります。

効果的な LLM に必要なデータ量を考えると、これらのモデルのデータに GPU/ML シリコンが処理するのと同じ速さでアクセスできなければ、コストがかかり非効率になります。 生成 AI ワークロード用のインフラストラクチャを選択することは、コスト、パフォーマンス、持続可能性の目標、使いやすさに至るまで、あらゆることに影響します。 FM のトレーニングと推論を成功させるには、組織は以下の要素が必要です。

  1. 大規模な生成 AI ワークロードを支えるためのコストパフォーマンスに優れたアクセラレーテッド・コンピューティング(最新の GPU や専用 ML シリコン)
  2. アクセラレーターの利用率を高く維持できるように構築された高性能かつ低レイテンシーのクラウドストレージ
  3. 生成 AI ワークロードのインフラストラクチャをサポートする、高性能で最先端のテクノロジー、ネットワーキング、システム
  4. 生成 AI アプリケーション、ツール、インフラストラクチャ全体でシームレスな統合を提供可能なクラウドサービスを利用した構築能力

生成 AI のためのコンピューティング、ストレージ、ネットワーキングの概要

Amazon Elastic Compute Cloud (Amazon EC2) のアクセラレーテッド・コンピューティング・ポートフォリオ(GPU や専用の ML シリコンで動作するインスタンス)は、生成 AI ワークロードを強化するための幅広いアクセラレーターの選択肢を提供します。

アクセラレーターの高い利用率を維持するためには、処理のためのデータへの定常的なアクセスが必要です。AWS は Amazon FSx for LustreAmazon S3 により、ストレージからの高速なデータ転送(最大数百 GB/TB のデータスループット)を提供します。

AWS Nitro System、最大 3,200 Gbps の Elastic Fabric Adapter (EFA) ネットワーキング、Amazon EC2 UltraClusters によるエクサスケールコンピューティングのような AWS テクノロジーが組み込まれた高速コンピューティングインスタンスは、生成 AI ワークロードのための最もパフォーマンスの高いインフラストラクチャを提供するのに役立ちます。

これらのインスタンスは、Amazon SageMaker HyperPodAmazon Elastic Kubernetes Service (Amazon EKS) などのマネージドサービスと組み合わせることで、生成 AI アプリケーションの構築とデプロイのための業界最高峰のプラットフォームを開発者に提供します。

このブログ記事では、生成 AI を中心とした Amazon EC2 インスタンス、ストレージ、ネットワーキング関連のアナウンスに焦点を当てます。

生成 AI ワークロードのための AWS コンピュートの進化

大規模な FM のトレーニングには膨大なコンピュートリソースが必要です。また、あらゆる規模の組織がより速く反復的に、多くのモデルをトレーニングし、精度を高めるためには、プロジェクト毎に幅広いオプションセットを必要とします。2023 年には、AWS のコンピュート分野全体で、生成 AI のトレーニングと推論の両方のワークロードをサポートする多くのリリースがありました。

そのうちの 1 つ、Amazon EC2 Trn1n インスタンス(AWS 自身が ML ワークロード、特に ML トレーニング向けに開発した第二世代の ML 専用チップ AWS Trainium を搭載したインスタンス)は、Trn1 インスタンスと比較して Elastic Fabric Adapter (EFA) のネットワーク帯域幅を 2 倍の 1,600 Gbps に拡張しました。この帯域幅の向上により、LLM や mixture of experts (MoE) などのネットワーク負荷の高い生成 AI モデルのトレーニングが Trn1 と比較して最大 20% 高速化されました。

株式会社わたしは」様は革新的でインタラクティブな AI チャットボットサービス「大喜利 AI」を提供しており、LLM を使用してユーモアを取り入れ、顧客により適切で会話しやすい体験を与えています。株式会社わたしはの小橋洋平 CTO は「モデルの開発では、モデルの事前学習とファインチューンを頻繁に行う必要がありました。我々はテンソルとデータの並列性を活用して、GPT ベースの日本語モデルを EC2 の Trn1.32xlarge インスタンスで事前学習しました。トレーニングは 28 日以内に完了し、以前の GPU ベースのインフラストラクチャと比較して 33% のコスト削減を実現しました。当社のモデルは急速に複雑さを増し続けるので、より大規模なモデルのトレーニングを高速化するために、Trn1 の 2 倍のネットワーク帯域幅を備えた Trn1n インスタンスに期待しています。」と述べています。

AWS は生成 AI ワークロードのためのインフラストラクチャを進化させ続けており、最近 Trainium2 アクセラレーターも近々登場すると発表しました。これらのアクセラレーターは、第 1 世代の Trainium チップよりも最大 4 倍高速な学習を実現するように設計されており、最大 100,000 チップの EC2 UltraCluster にデプロイできるようになり、エネルギー効率を最大 2 倍改善しながら、FM や LLM を短い時間で学習できるようになります。

AWS は、これまでにも GPU インフラへ長年投資を続けてきました。現在までに、NVIDIA は Ampere GPU 世代と Grace Hopper GPU 世代にわたり、AWS 上に 200 万基の GPU を展開しています。これは 3 ゼタフロップス、つまり 3,000 台のエクサスケールのスーパーコンピュータに相当します。最近では、AWS は NVIDIA H100 Tensor Core GPU で動作する Amazon EC2 P5 インスタンスを発表しました。これは、NVIDIA CUDA または CuDNN を使用した時間重視の大規模トレーニングワークロード向けに設計されたものです。P5 インスタンスは、旧世代の GPU ベースの EC2 インスタンスと比較して、ソリューション解決の速度を最大 4 倍に高速化し、ML モデルのトレーニングコストを最大 40% 削減します。P5 インスタンスは、より速いペースでソリューションを反復処理し、迅速に市場に投入するのに役立ちます。

また AWS は、高需要な GPU コンピューティング容量への簡単かつ予測可能なアクセスを提供するために、Amazon EC2 Capacity Blocks for ML をローンチしました。これは、主要なクラウドプロバイダーとしては初めての消費モデルで、GPU を将来の使用のために予約して短時間の ML ワークロードを実行できます(EC2 UltraClusters で最大 500 基までデプロイ可能)。

AWSはまた、Amazon SageMaker HyperPod によってトレーニングを簡素化し、大規模かつ耐障害性の高い分散トレーニングに必要なプロセス(例えば、分散トレーニングライブラリの構成、数千のアクセラレーターにわたるトレーニングワークロードのスケーリング、異常なインスタンスの検出と修復など)の多くを自動化することで、トレーニングを最大 40% 高速化します。Perplexity AI のような顧客は、SageMaker HyperPod を使用することで、数百の GPU を超えて柔軟にスケーリングし、ダウンタイムを最小限に抑えています

ディープラーニングの推論は、AWS Inferentia2 によって提供される低コストで高性能な Amazon EC2 Inf2 インスタンスなど、AWS がクラウドインフラストラクチャの革新を続けているもう一つの例です。これらのインスタンスは、高性能なディープラーニングの推論アプリケーションをグローバル規模で実行するために設計されています。これらは、生成 AI における最新のイノベーションを展開するためには、Amazon EC2 における最もコスト効率とエネルギー効率の高いオプションです。

別の例として、Amazon SageMaker を使用すると、同じインスタンスに複数のモデルをデプロイすることができるため、コンピュートリソースを共有し、推論コストを 50% 削減することができます。SageMaker はまた、推論リクエストを処理しているインスタンスをアクティブに監視し、利用可能なインスタンスに基づいてインテリジェントにリクエストをルーティングします。これにより、平均して 20% 低い推論レイテンシーを実現します。

AWS は、生成 AI ワークロードのためのツールにも多額の投資を行っています。AWS ML シリコンについては、AWS は Trainium と Inferentia から顧客が最大限のパフォーマンスを得るためのソフトウェア開発キット(SDK)である AWS Neuron に注力しています。Neuron は、Meta の Llama 2、Databricks の MPT、mistral.ai の Mistral、Stability AI の Stable Diffusion を含む、人気のある一般公開モデルをサポートし、モデルリポジトリである Hugging Face のトップ 100 モデルのうち 93 モデルをサポートしています。PyTorch や TensorFlow のような ML フレームワークにプラグインでき、JAX のサポートは 2024 年初頭に予定されています。AWS の顧客が、既存のモデルトレーニングや推論パイプラインを、わずか数行のコードで Trainium や Inferentia に簡単に切り替えられるように設計されています。

生成 AI のための AWS クラウドストレージの進化

AWS がトレーニングと推論のパイプラインを加速させているもう 1 つの方法は、ストレージパフォーマンスの改善です。これは、最も一般的な ML タスク(大規模な GPU やアクセラレーターのクラスターへのトレーニングデータのロードなど)を考えるときだけでなく、チェックポイントや推論リクエストの処理にとっても重要です。AWSは、ストレージリクエストの速度を加速し、コンピュートリソースのアイドル時間を短縮するためのいくつかの改善を発表しました。これにより、生成 AI ワークロードをより速く、効率的に実行できます。

より正確な予測を得るために、生成 AI ワークロードは大規模なデータセットを使用しており、膨大なデータ量を処理するために高性能なストレージが必要です。

Amazon S3 Express One Zone は、組織で最も頻繁にアクセスされるデータのために設計された高性能かつ低レイテンシーのオブジェクトストレージの新しいストレージクラスです。これは、ML のトレーニングや推論のようなリクエスト集中型の処理に最適です。Amazon S3 Express One Zone は、AWS リージョン内のどのアベイラビリティゾーンからでも、Amazon S3 標準クラスよりもデータアクセス速度が最大 10 倍速く、リクエストコストが最大 50 %低い、低レイテンシーのクラウドオブジェクトストレージです。

AWS は ML フレームワークのためのデータアクセス速度も継続的に最適化しています。最近、Amazon S3 Connector for PyTorch がローンチされ、Amazon S3 への既存の PyTorch コネクタよりも最大 40% 速くトレーニングデータをロードできるようになりました。ほとんどの顧客は、Mountpoint for Amazon S3 や Amazon S3 Connector for PyTorch を使用してトレーニングや推論の要件を満たすことができますが、一部の顧客は独自のカスタムデータローダーを構築して管理しています。Amazon S3 と Amazon EC2 Trn1、P4d、P5 インスタンス間で最速のデータ転送速度を実現するために、AWS は最近、AWS Command Line Interface (AWS CLI) と Python SDK で Amazon S3 のデータ転送を自動的に高速化する機能を発表しました。トレーニングジョブは Amazon S3 からトレーニングデータを最大 3 倍高速にダウンロードし、Scenario のような顧客は、コードを 1 行も書くことなくモデルのダウンロード時間を 5 倍スループット向上させるなど、すでに大きな成果を得ています。

生成 AI ワークロードのトレーニングで要求されるパフォーマンス要件の変化に対応するため、Amazon FSx for Lustre はスループットのオンデマンドスケーリングを発表しました。これは、俊敏かつ低コストで要件を満たすようにファイルシステムのスループット階層を調整できるため、モデルトレーニングに特に有用です。

生成 AI のための AWS ネットワークの進化

昨年、AWS は EC2 UltraCluster 2.0 を発表しました。これは、P5 インスタンスと将来の ML アクセラレーター専用に最適化された、フラットで広いネットワークファブリックです。これにより、レイテンシーを 16% 削減し、最大 20,000 基の GPU をサポートし、全体の帯域幅を最大 10 倍にすることができます。従来のクラスター構成では、一般的にクラスターが物理的に大きくなるとレイテンシーも大きくなる一方で、UltraCluster 2.0 では、AWS はクラスターのサイズを拡大しながらレイテンシーを短縮します。

AWS は、ネットワークの効率化も支援し続けています。例えば、最近発表された Amazon EC2 Instance Topology API はインスタンス間の近接度を内部的に確認できるので、ジョブを戦略的に配置できます。最適化されたジョブスケジューリングにより、分散ワークロードの処理を高速化します。最も頻繁にデータをやり取りするジョブをクラスタ内の同じ物理的な場所に移動させることで、データパス内の複数のホップを排除できます。モデルが限界を押し広げる中、このようなソフトウェアの革新は、ハードウェアを最大限に活用するための鍵となります。

AWSは Amazon Q(AWS の生成 AI 搭載アシスタント)に加え、Amazon Q networking troubleshooting (preview) も開始しました。

現在の AWS アカウントで、ネットワークの設定ミスに起因するネットワーク接続の問題のトラブルシューティングを Amazon Q にサポートしてもらうことができます。この機能では、Amazon QはAmazon VPC Reachability Analyzer と連携して接続をチェックし、潜在的な問題を特定するためにネットワーク構成を検査します。Amazon Q network troubleshooting では、ネットワークに関する質問を会話形式で行うことができます。例えば、「Why can’t I SSH to my server?」や「Why is my website not accessible?」(2023/02 時点、日本語未対応)と尋ねることができます。

まとめ

AWS は、価格性能、持続可能性、使いやすさに重点を置いたオプションを含め、お客様のインフラストラクチャにさらに多くの選択肢を提供します。昨年このスタック全体にわたる AWS の機能は、お客様のニーズに応えること、および「生成 AI をあらゆる規模や技術力のお客様が利用できるようにすることで、実現できることの革新や変革をサポートする」という目標に向けた取り組みを強化しました。

その他のリソース

本記事は、Generative AI Infrastructure at AWS を翻訳したものです。翻訳はソリューションアーキテクトの宮口直樹が担当しました。