Amazon Web Services ブログ

Amazon FSx for Lustre が GPU インスタンスのスループットを最大 15 倍増加

11 月 27 日、Amazon FSx for Lustre での Elastic Fabric Adapter (EFA)NVIDIA GPUDirect Storage (GDS) のサポート開始を発表しました。EFA は、高レベルのノード間通信を必要とするアプリケーションを大規模に実行できるようにする、Amazon EC2 インスタンス用のネットワークインターフェイスです。GDS は、ローカルストレージまたはリモートストレージと GPU メモリ間の直接データパスを作成するテクノロジーです。これらの機能強化により、EFA/GDS サポートを備えた Amazon FSx for Lustre では、以前の FSx for Lustre バージョンと比較して、クライアントあたりのスループットが最大 15 倍 (最大 1,500 Gbps) 向上しました。

FSx for Lustre を使用すると、深層学習トレーニング、創薬、財務モデリング、自動運転車開発など、最も高いパフォーマンスが要求されるアプリケーションを構築して実行できます。データセットが増え、新しいテクノロジーが誕生するにつれて、Amazon EC2 P5Trn1Hpc7a などのますます強力な GPU インスタンスや HPC インスタンスを採用できるようになります。これまで、FSx for Lustre ファイルシステムにアクセスする場合、従来の TCP ネットワークを使用すると、個々のクライアントインスタンスのスループットは 100 Gbps に制限されていました。この採用により、大規模なデータセットにアクセスする際に、最先端の EC2 インスタンスの増加するネットワーク帯域幅を最適に活用するために必要となるパフォーマンスを提供する、FSx for Lustre ファイルシステムの必要性が高まっています。

FSx for Lustre の EFA と GDS のサポートにより、アプリケーションで P5 GPU インスタンスと NVIDIA CUDA を使用した場合、クライアントインスタンスあたり最大 1,500 Gbps のスループット (以前のスループットの 15 倍) を実現できるようになりました。

この新機能によって、最も強力なコンピューティングインスタンスのネットワーク帯域幅を最大限に活用し、機械学習 (ML)HPC のワークロードを高速化できます。EFA は、オペレーティングシステムをバイパスし、AWS Scalable Reliable Datagram (SRD) プロトコルを使用してデータ転送を最適化することで、パフォーマンスを向上させます。GDS は、CPU をバイパスして冗長なメモリコピーを排除し、ファイルシステムと GPU メモリ間の直接データ転送を可能にして、パフォーマンスをさらに向上させます。

これが実際にどのように機能するかを見てみましょう。

EFA 対応の Amazon FSx for Lustre ファイルシステムの作成
はじめに、Amazon FSx コンソールで、[ファイルシステムを作成] を選択してから、[Amazon FSx for Lustre] を選択します。

ファイルシステムの名前を入力します。[デプロイとストレージタイプ] セクションで、[永続的、SSD] と新しい [EFA 対応] オプションを選択します。[ストレージ単位あたりのスループット] セクションで [1,000 MB/s/TiB] を選択します。これらの設定では、[ストレージ容量] に 4.8 TiB と入力します。これは、これらの設定でサポートされる最小容量です。

コンソールのスクリーンショット。

ネットワーキングには、デフォルトの仮想プライベートクラウド (VPC)EFA 対応のセキュリティグループを使用します。他のすべてのオプションはデフォルト値のままにします。

コンソールのスクリーンショット。

すべてのオプションを確認して、ファイルシステムの作成に進みます。数分後、ファイルシステムは使用できる状態になります。

Amazon EC2 インスタンスからの EFA 対応の Amazon FSx for Lustre ファイルシステムのマウント
Amazon EC2 コンソールで、[インスタンスを起動] を選択し、インスタンスの名前を入力して、Ubuntu Amazon マシンイメージ (AMI) を選択します。[インスタンスタイプ] では、[trn1.32xlarge] を選択します。

コンソールのスクリーンショット。

[ネットワーク設定] では、デフォルト設定を編集し、FSx Lustre ファイルシステムで使用されているのと同じサブネットを選択します。[ファイアウォール (セキュリティグループ)] では、FSx for Lustre ファイルシステムが使用する EFA 対応のセキュリティグループ、デフォルトのセキュリティグループ、Secure Shell (SSH) アクセスを提供するセキュリティグループの 3 つの既存のセキュリティグループを選択します。

コンソールのスクリーンショット。

[高度なネットワーク構成] では、[インターフェイスタイプ] として [ENA と EFA] を選択します。この設定がないと、インスタンスは従来の TCP ネットワークを使用し、FSx for Lustre ファイルシステムとの接続のスループットは 100 Gbps に制限されます。

コンソールのスクリーンショット。

スループットを向上させるには、インスタンスタイプに応じて EFA ネットワークインターフェイスを追加できます。

インスタンスを起動し、インスタンスの準備が整ったら、EC2 Instance Connect を使用して接続し、「FSx for Lustre ユーザーガイド」の Lustre クライアントのインストールEFA クライアントの設定の手順に沿って操作します。

次に、EC2 インスタンスから FSx for Lustre ファイルシステムをマウントする手順に沿って操作します。

マウントポイントとして使用するフォルダを作成します。

sudo mkdir -p /fsx

FSx コンソールでファイルシステムを選択し、DNS 名マウント名を検索します。これらの値を使用して、ファイルシステムをマウントします。

sudo mount -t lustre -o relatime,flock file_system_dns_name@tcp:/mountname /fsx

EFA をサポートし、Lustre バージョン 2.15 以降を使用しているクライアントインスタンスから EFA 対応ファイルシステムにアクセスすると、EFA が自動的に使用されます。

知っておくべきこと
EFA と GDS のサポートは、persistent 2 が提供されているすべての AWS リージョンの新しい Amazon FSx for Lustre ファイルシステムで、追加費用なしで今すぐご利用いただけます。顧客が EFA をサポートするクライアントインスタンスから EFA 対応ファイルシステムにアクセスすると、FSx for Lustre は、追加の設定なしで自動的に EFA を使用します。EFA をサポートしている EC2 クライアントインスタンスのリストについては、「Amazon EC2 ユーザーガイド」のサポートされているインスタンスタイプを参照してください。このネットワーク仕様表では、高速コンピューティングカテゴリーのインスタンスタイプのネットワーク帯域幅および EFA サポートについて説明しています。

Lustre ファイルシステムの FSx で EFA 対応インスタンスを使用するには、カーネル 6.8 以降を搭載した Ubuntu 22.04 で、Lustre 2.15 クライアントを使用する必要があります。

クライアントインスタンスとファイルシステムは、Amazon Virtual Private Cloud (Amazon VPC) 接続内の同じサブネットに配置されている必要があることに注意してください。

GDS は EFA 対応のファイルシステムで自動的にサポートされます。GDS を FSx for Lustre ファイルシステムで使用するには、クライアントインスタンスに NVIDIA Compute Unified Device Architecture (CUDA) パッケージオープンソースの NVIDIA ドライバーNVIDIA GPUDirect Storage Driver がインストールされている必要があります。これらのパッケージは AWS 深層学習 AMI にあらかじめインストールされています。その後、CUDA 対応アプリケーションを使用して、ファイルシステムと GPU 間のデータ転送に GPUDirect Storage を使用できます。

デプロイを計画する際には、EFA 対応のファイルシステムは、EFA 対応でないファイルシステムよりも最小ストレージ容量の増加が大きいことに注意してください。例えば、1,000 MB/s/TiB スループット階層を選択した場合、EFA 対応ファイルシステムの最小ストレージ容量は 4.8 TiB ですが、EFA が有効になっていない Lustre ファイルシステムの FSx では 1.2 TB です。既存のワークロードの移行を検討している場合は、AWS DataSync を使用して、既存のファイルシステムから EFA と GDS をサポートする新しいファイルシステムへデータを移動できます。

柔軟性を最大限に高めるため、FSx for Lustre は EFA ワークロードと非 EFA ワークロードの両方との互換性を維持しています。EFA 対応のファイルシステムにアクセスすると、EFA 以外のクライアントインスタンスからのトラフィックは、Elastic Network Adapter (ENA) を使用して自動的に従来の TCP/IP ネットワーク経由で流れるため、追加の設定なしですべてのワークロードにシームレスにアクセスできます。

詳細なセットアップ手順やベストプラクティスなど、FSx for Lustre での EFA および GDS サポートの詳細については、Amazon FSx for Lustre のドキュメントをご覧ください。今すぐ使用を開始して、クラウドの GPU インスタンスで利用可能な最速のストレージパフォーマンスをご体験ください。

Danilo

原文はこちらです。