Amazon SageMaker HyperPod offre ora un'osservabilità completa per i gruppi di istanze con restrizioni

Inserito il: 4 mar 2026

Amazon SageMaker HyperPod offre ora un'osservabilità completa per i gruppi di istanze con restrizioni (RIG), consentendo ai team che addestrano modelli di base con Nova Forge di ottenere una visibilità profonda sulle proprie risorse di calcolo e sui carichi di lavoro di addestramento. Questa nuova capacità elimina l'impegno manuale richiesto per raccogliere e correlare le metriche nell'intero stack infrastrutturale, fornendo una vista unificata delle prestazioni delle GPU, dello stato di salute del sistema, del throughput di rete e dello stato del cluster Kubernetes tramite una dashboard di Amazon Managed Grafana preconfigurata e basata su Amazon Managed Service for Prometheus.

È ora possibile monitorare l'utilizzo delle GPU, la larghezza di banda NVLink, la pressione della CPU, l'utilizzo di FSx for Lustre e il ciclo di vita dei pod da un'unica dashboard Grafana, grazie alle metriche raccolte da quattro exporter che coprono le prestazioni delle GPU, lo stato del sistema a livello di host, il fabric di rete e lo stato degli oggetti Kubernetes. Inoltre, i log curati vengono resi automaticamente disponibili in queste dashboard e includono il progresso delle epoche, i log di addestramento a livello di step, gli errori delle pipeline e i traceback Python, consentendo di diagnosticare rapidamente eventuali interruzioni dell'addestramento. L'osservabilità di HyperPod per i gruppi di istanze con restrizioni viene abilitata automaticamente quando si crea un nuovo cluster utilizzando i RIG, oppure può essere attivata per i cluster esistenti con pochi clic nella console di gestione dei cluster HyperPod.

L'osservabilità dei gruppi di istanze con restrizioni (RIG) di Amazon SageMaker HyperPod è disponibile in tutte le regioni AWS in cui i RIG di SageMaker HyperPod sono supportati. Per ulteriori informazioni, consulta la documentazione.