AWS PCS 现提供生产就绪的深度学习 AMI
今天,AWS 并行计算服务(AWS PCS)推出了 PCS-ready DLAMI,这是一个由 AWS 维护的 Amazon Machine Image,基于 Deep Learning Base GPU AMI(Ubuntu 24.04)构建。它为 AI/ML 训练和高性能计算(HPC)提供了生产级质量的基础,预装了核心基础设施组件并经过了兼容性测试。
AWS PCS 是一项托管服务,可让您更轻松地运行和扩展 HPC 工作负载,并使用 Slurm 在 AWS 上构建科学和工程模型。您可以使用 AWS PCS 构建集成计算、存储、网络和可视化工具的完整弹性环境。AWS PCS 可通过托管更新和内置可观测性功能简化集群操作,帮助减轻维护负担。您可以在熟悉的环境中工作,从而专注于研究和创新,而不必担心基础设施问题。
该 AMI 从源 Deep Learning Base GPU AMI 继承了操作系统、NVIDIA GPU 驱动、CUDA 工具包、EFA 驱动和 Lustre 客户端,并增加了 PCS Agent、Slurm for PCS 以及 EFS 实用工具。其中包含了多个受支持的 Slurm 版本,正确版本会根据您的集群配置自动激活。您还可以在此基础上添加框架、库和应用程序软件,以完善您的环境。当源 DLAMI 或 PCS 组件更新时,AWS 会定期发布更新后的 AMI,持续提供安全补丁和驱动更新。
AWS PCS-ready DLAMI 在提供 AWS PCS 的所有 AWS 区域中均可免费用于 x86_64 和 arm64 架构,无需额外付费。要开始使用,请在配置计算节点组时指定 PCS-ready AMI。有关更多信息,请参阅 AWS PCS 用户指南中的使用 PCS-ready DLAMI。如需了解基于 PCS-ready DLAMI 构建的参考集群架构,请参阅 GitHub 上的 awsome-distributed-ai 存储库。