AWS ParallelCluster 2.10

AWS ParallelCluster で NVIDIA GPUDirect RDMA サポートを開始

投稿日: Nov 19, 2020

AWS ParallelCluster は全面的なサポートとメンテナンスが提供されているオープンソースのクラスター管理ツールです。このツールを使用すると、科学者、研究者、IT 管理者が、AWS クラウド内でハイパフォーマンスコンピューティング (HPC) クラスターのデプロイと管理をより簡単に実行できるようになります。HPC クラスターはコンピューティング、ストレージ、ネットワークのリソースを緊密に結び付けた複数のコレクションで、お客様はこれを使用し科学やエンジニアリングの分野で大規模なワークロードを実行できます。

最新版の AWS ParallelCluster で強化された主要な機能は次の通りです。

P4d インスタンスのサポート: クラスターで P4d インスタンスを選んで使用できるようになりました。これらのインスタンスには、Elastic Fabric Adapter を介して有効になる NVIDIA GPUDirect Remote Direct Memory Access (RDMA) のサポートが含まれます。これにより、GPU 間のコミュニケーションに NVIDIA Collective Communications Library (NCCL) を使用して、緊密に組み合わせられたアプリケーションを加速できるようになります。このオプションは、新しい enable_efa_gdr 構成設定を使用して有効にできます。

CentOS 8 オペレーティングシステムのサポート: x86 と Arm の両アーキテクチャにクラスターを実行する際、ベースとなるオペレーティングシステムに、CentOS 8 を指定できるようになりました。AWS ParallelCluster がサポートする他のオペレーティングシステムと同様に、base_os オプションを使ってオペレーティングシステムを選択し、CentOS 8 上で構築した独自のカスタム AMI を、作成および使用することもできます。また、CentOS 8 のサポートにはリモートでの可視性を改善するために、AWS ParallelCluster のサポート対象スケジューラや NICE DCV のすべてとの互換性も含まれます。

Amazon CloudWatch クラスターメトリクスダッシュボード: CloudWatch にあるクラスターの操作上のメトリクスを追加および可視化できるようになりました。これには、CPU やネットワークの使用、ファイルシステムの読み取り/書き込み操作、Amazon Elastic Block Store ボリュームへの読み取り/書き込み操作などのメトリクスも含まれます。お客様はこのダッシュボードを使用して、クラスターの使用情報を可視化し、パフォーマンスのボトルネックを特定することで、クラスターのパフォーマンスを改善するための最適な方法を診断できます。

AWS ParallelCluster は追加コストなしでご利用いただけます。お支払いいただくのは、お客様のアプリケーションを実行するために必要な AWS リソースの料金のみです。AWS ParallelCluster を使用した HPC クラスターの起動方法についてはこちらを参照してください。

詳細については、こちらより、AWS ParallelCluster の最新バージョンのリリースノート全文をご覧ください。

AWS ParallelCluster で NVIDIA GPUDirect RDMA サポートを開始

Internet Explorer のサポートの終了