AWS 并行计算服务现已支持 Slurm 25.11

发布于: 2026年4月23日

AWS 并行计算服务(AWS PCS)现在支持 Slurm 版本 25.11,提供与 Prometheus 兼容的 OpenMetrics 端点,同时引入包括调度器审计日志在内的新日志类型。

此次发布的 Slurm 25.11 新增了加急重新排队功能,该功能可以按最高优先级自动重新调度受节点问题影响的作业,帮助您的工作负载更快地恢复。您可以使用现有的监控工具启用新的 OpenMetrics 端点,从而实时查看作业、节点和调度。AWS PCS 现在还可以向 Amazon CloudWatch Logs、Amazon S3 或 Amazon Data Firehose 发送 Slurm 数据库进程守护程序(slurmdbd)和 REST API 进程守护程序(slurmrestd)日志,帮助诊断会计问题和调试 API 集成。调度器审计日志之前包含在运行日志中,现在则作为专用日志类型提供,可以让您单独掌控摄取和存储成本。

AWS PCS 是一项托管服务,可让您更轻松地运行和扩展高性能计算 (HPC) 工作负载,并使用 Slurm 在 AWS 上构建科学和工程模型。您可以使用 AWS PCS 构建集成计算、存储、网络和可视化工具的完整弹性环境。AWS PCS 可通过托管更新和内置可观测性功能简化集群操作,帮助减轻维护负担。您可以在熟悉的环境中工作,从而专注于研究和创新,而不必担心基础设施问题。

这些功能已在提供 AWS PCS 的所有 AWS 区域推出。对于日志传输目的地,需要收取标准费用。要了解有关 AWS PCS 的更多信息,请参阅服务文档