AWS Parallel Computing Service 現在支援 Slurm 25.11 版

張貼日期: 2026年4月23日

AWS Parallel Computing Service (AWS PCS) 現在支援 Slurm 25.11 版,同時支援 Prometheus 相容的 OpenMetrics 端點,並導入新的日誌類型,包括排程器稽核日誌。

此 Slurm 25.11 版導入快速重新排入序列功能,這能夠以最高優先順序自動重新排程受節點問題影響的工作,從而協助您的工作負載更快還原。您能夠啟用新的 OpenMetrics 端點,使用現有的監控工具來即時查看工作、節點和排程。AWS PCS 現在還能將 Slurm 資料庫常駐程式 (slurmdbd) 和 REST API 常駐程式 (slurmrestd) 日誌傳送到 Amazon CloudWatch Logs、Amazon S3 或 Amazon Data Firehose,協助診斷會計問題並偵錯 API 整合。先前包含在作業日誌中的排程器稽核日誌,現在會以專用日誌類型傳遞,可讓您獨立控制擷取和儲存成本。

AWS PCS 是一項受管服務,可讓您更輕鬆地執行和擴展高效能運算 (HPC) 工作負載,以及使用 Slurm 在 AWS 上建置科學和工程模型。您可以使用 AWS PCS 建置整合運算、儲存、網路和視覺化工具的完整彈性環境。AWS PCS 透過受管更新和內建的可觀測性功能簡化叢集操作,有助於減輕繁重的維護工作。您可以在熟悉的環境中開展工作,專注於研究和創新,而不必擔心基礎設施的處理。

這些功能適用於提供 AWS PCS 的所有 AWS 區域。日誌傳遞目的地適用標準費用。若要進一步了解 AWS PCS,請參閱服務文件