AWS PCS が本番環境に対応した Deep Learning AMI の提供を開始
本日、AWS Parallel Computing Service (AWS PCS) は、Deep Learning Base GPU AMI (Ubuntu 24.04) をベースに構築され、AWS が管理する Amazon マシンイメージである PCS-ready DLAMI を発表しました。コアインフラストラクチャコンポーネントがあらかじめインストールされ、互換性テストも完了しているため、AI/機械学習のトレーニングやハイパフォーマンスコンピューティング (HPC) において本番環境品質の基盤を提供します。
AWS PCS は、Slurm を使用して AWS で HPC ワークロードを実行およびスケールし、科学モデルやエンジニアリングモデルをより容易に構築できるようにするマネージドサービスです。AWS PCS を使用して、コンピューティング、ストレージ、ネットワーキング、および視覚化ツールを統合する、完全で伸縮自在な環境を構築することができます。AWS PCS は、管理された更新と組み込みのオブザーバビリティ機能でクラスター運用を簡素化するため、メンテナンス負担の解消に役立ちます。使い慣れた環境で作業することで、インフラストラクチャについて心配する代わりに、研究やイノベーションに集中できます。
この AMI は、ベースとなった Deep Learning Base GPU AMI から、オペレーティングシステム、NVIDIA GPU ドライバー、CUDA ツールキット、EFA ドライバー、Lustre クライアントを継承しており、さらに PCS エージェント、PCS 用 Slurm、EFS ユーティリティを追加しています。サポートされている複数のバージョンの Slurm が含まれており、クラスターの構成に基づいて適切なバージョンが自動的に有効化されます。お客様は、この上にフレームワーク、ライブラリ、およびアプリケーションソフトウェアを追加して、独自の環境を完成させることができます。AWS は、ベースとなる DLAMI や PCS コンポーネントが更新された際に、定期的にアップデートされた AMI をリリースし、継続的なセキュリティパッチやドライバーの更新を提供します。
AWS PCS-ready DLAMI は、x86_64 および arm64 アーキテクチャをサポートしており、AWS PCS が利用可能なすべての AWS リージョンにて、追加費用なしでご利用いただけます。使用を開始するには、コンピューティングノードグループの設定時に PCS-ready AMI を指定してください。詳細については、AWS PCS ユーザーガイドの PCS-ready DLAMI の使用を参照してください。PCS-ready DLAMI をベースにしたリファレンスクラスターアーキテクチャについては、GitHub の awsome-distributed-ai リポジトリを参照してください。