投稿日: Nov 2, 2020
Elastic Fabric Adapter (EFA) が NVIDIA GPUDirect Remote Direct Memory Access (RDMA) のサポートを開始したことをお知らせします。EFA での GPUDirect RDMA サポートは、AWS 上の次世代 GPU ベースのインスタンスである、Amazon Elastic Compute Cloud (Amazon EC2) P4d インスタンスでご利用いただけるようになります。P4d は、自然言語処理、オブジェクトの検出と分類、地震解析、コンピューティングによる創薬などのアプリケーション向けに、クラウドでの機械学習 (ML) トレーニングとハイパフォーマンスコンピューティング (HPC) に最高のパフォーマンスを実現します。EFA での GPUDirect RDMA サポートにより、ネットワークインターフェイスカード (NIC) が GPU メモリに直接アクセスできるようになります。これにより、余分なメモリコピーが回避され、NVIDIA GPU ベースの Amazon EC2 インスタンス間でのリモート GPU から GPU への通信が高速化され、CPU とユーザーアプリケーションのオーケストレーションオーバーヘッドが削減されます。その結果、P4d で NVIDIA Collective Communications Library (NCCL) を使用してアプリケーションを実行しているお客様は、マルチノードの密結合ワークロードをさらに高速化できます。
P4d インスタンスは、前世代の P3 および P3dn インスタンスと比較して、2.5 倍のメモリ、倍精度浮動小数点パフォーマンス、4 倍のローカル NVMe ベースの SSD ストレージで、トレーニングのコストを最大 60% 削減し、2.5 倍以上の深層学習パフォーマンスを実現します。同インスタンスは p4d.24xl サイズで利用でき、96 個の vCPU、8 個の NVIDIA A100 GPU、1.1 TB のインスタンスメモリ、8 TB のローカル NVMe ベースの SSD ストレージ、19 Gbps の EBS バースト帯域幅、および EFA と GPUDirect RDMA による 400 Gbps のネットワーク帯域幅を提供します。
EFA は、Amazon EC2 インスタンス用にカスタム構築されたネットワークインターフェイスで、お客様が AWS で大規模なインスタンス間通信を高いレベルで必要とするようなアプリケーションを実行できるようにします。EFA の使用方法の詳細については、EFA ドキュメントをご覧ください。 EFA を使用した HPC および ML ワークロードのスケーリングの詳細については、AWS HPC ワークショップをご覧ください。