AWS PCS 現在提供生產就緒的深度學習 AMI

張貼日期: 2026年6月1日

AWS Parallel Computing Service (AWS PCS) 今日推出 PCS 就緒 DLAMI,這是 AWS 維護的 Amazon Machine Image,以深度學習基礎 GPU AMI (Ubuntu 24.04) 為基礎建置而成。該功能為 AI/ML 訓練和高效能運算 (HPC) 提供生產品質的架構基礎,並附有預先安裝且經過相容性測試的核心基礎架構元件。

AWS PCS 是一項受管服務,可讓您更輕鬆地執行和擴展 HPC 工作負載,以及使用 Slurm 在 AWS 上建置科學和工程模型。您可以使用 AWS PCS 建置整合運算、儲存、網路和視覺化工具的完整彈性環境。AWS PCS 透過受管更新和內建的可觀測性功能簡化叢集操作,有助於減輕繁重的維護工作。您可以在熟悉的環境中開展工作,專注於研究和創新,而不必擔心基礎設施的處理。

AMI 會從來源深度學習基礎 GPU AMI 繼承作業系統、NVIDIA GPU 驅動程式、CUDA 工具組、EFA 驅動程式和 Lustre 用戶端,並新增 PCS 代理程式、適用於 PCS 的 Slurm 和 EFS 公用程式。其中包含多個支援的 Slurm 版本,而且系統會根據您的叢集組態自動啟動正確的版本。您能夠進一步新增架構、程式庫和應用程式軟體,以完善您的環境。當來源 DLAMI 或 PCS 元件更新後,AWS 會定期發佈更新的 AMI,從而持續提供安全性修補程式和驅動程式更新。

AWS PCS 就緒 DLAMI 適用於提供 AWS PCS 之所有 AWS 區域內的 x86_64 和 arm64 架構,無需額外費用。若要著手使用,請在設定運算節點群組時指定 PCS 就緒 AMI。如需詳細資訊,請參閱 AWS PCS 使用者指南中的使用 PCS 就緒 DLAMI。如需基於 PCS 就緒 DLAMI 建置的參考叢集架構,請參閱 GitHub 上的 awsome-distributed-ai 儲存庫。