Amazon SageMaker HyperPod bietet jetzt umfassende Beobachtbarkeit für Restricted Instance Groups

Veröffentlicht am: 4. März 2026

Amazon SageMaker HyperPod bietet jetzt umfassende Beobachtbarkeit für Restricted Instance Groups (RIG), sodass Teams, die Basismodelle (FMs) mit Nova Forge trainieren, einen umfassenden Einblick in ihre Rechenressourcen und Trainingsworkloads erhalten. Diese neue Funktion macht das manuelle Sammeln und Korrelieren von Metriken im gesamten Infrastruktur-Stack überflüssig und stellt eine einheitliche Ansicht der GPU-Leistung, des Systemzustands, des Netzwerkdurchsatzes und des Kubernetes-Clusterstatus über ein vorkonfiguriertes Amazon-Managed-Grafana-Dashboard bereit, das von Amazon Managed Service für Prometheus unterstützt wird.

Sie können jetzt die GPU-Auslastung, die NVLink-Bandbreite, den CPU-Druck, die FSx für Lustre-Nutzung und den Pod-Lebenszyklus von einem einzigen Grafana-Dashboard aus überwachen, wobei die Metriken von vier Exporteuren zu GPU-Leistung, Systemzustand auf Host-Ebene, Netzwerkstruktur und Kubernetes-Objektstatus erfasst werden. Darüber hinaus werden in diesen Dashboards automatisch kuratierte Protokolle zur Verfügung gestellt, die den Fortschritt der Epoche, Trainingsprotokolle auf Schrittebene, Pipeline-Fehler und Python-Tracebacks abdecken, sodass Sie Trainingsfehler schnell diagnostizieren können. HyperPod Observability für Restricted Instance Group wird automatisch aktiviert, wenn Sie mithilfe von RIGs einen neuen Cluster erstellen, oder kann mit wenigen Klicks in der HyperPod-Cluster-Managementkonsole für bestehende Cluster aktiviert werden.

Amazon SageMaker HyperPod RIG Observability ist in allen AWS-Regionen verfügbar, in denen SageMaker HyperPod RIG unterstützt wird. Weitere Informationen finden Sie in der Dokumentation.