AWS Parallel Computing Service (AWS PCS) ora supporta Slurm 25.11
AWS Parallel Computing Service (AWS PCS) ora supporta Slurm versione 25.11, con supporto per un endpoint OpenMetrics compatibile con Prometheus e l’introduzione di nuovi tipi di log, inclusi i log di audit dello scheduler.
Questa versione di Slurm 25.11 introduce la ri-coda accelerata, che può ripianificare automaticamente i job interessati da problemi sui nodi con la massima priorità per aiutare i carichi di lavoro a recuperare più rapidamente. È possibile abilitare un nuovo endpoint OpenMetrics per la visibilità in tempo reale su job, nodi e pianificazione utilizzando gli strumenti di monitoraggio esistenti. AWS PCS può ora anche inviare i log del demone del database Slurm (slurmdbd) e del demone REST API (slurmrestd) ad Amazon CloudWatch Logs, Amazon S3 o Amazon Data Firehose, aiutando a diagnosticare problemi di accounting e a eseguire il debug delle integrazioni API. I log di audit dello scheduler, in precedenza inclusi nei log operativi, sono ora forniti come tipo di log dedicato, offrendo un controllo indipendente su ingestione e costi di archiviazione.
AWS PCS è un servizio gestito che semplifica l'esecuzione e la scalabilità dei carichi di lavoro di calcolo ad alte prestazioni (HPC) e la creazione di modelli scientifici e ingegneristici su AWS utilizzando Slurm. È possibile utilizzare AWS PCS per creare ambienti completi ed elastici che integrano strumenti di calcolo, archiviazione, rete e visualizzazione. AWS PCS semplifica le operazioni dei cluster con aggiornamenti gestiti e funzionalità di osservabilità integrate, contribuendo ad eliminare l'onere della manutenzione. È possibile lavorare in un ambiente familiare che permette di concentrarsi sulla ricerca e sull'innovazione senza preoccuparsi delle infrastrutture.
Queste funzionalità sono disponibili in tutte le regioni AWS in cui è disponibile AWS PCS. Si applicano le tariffe standard per le destinazioni di consegna dei log. Per ulteriori informazioni su AWS PCS, consultare la documentazione del servizio.