Container Insights unterstützt jetzt die Beobachtbarkeit des SageMaker HyperPod-Knotenzustands auf EKS

Veröffentlicht am: 10. Sept. 2024

Amazon CloudWatch Container Insights erkennt jetzt automatisch den Zustand Ihrer SageMaker HyperPod-Knoten, die auf EKS laufen, und visualisiert sie in kuratierten Dashboards, damit Sie die Verfügbarkeit der Knoten überwachen und optimale Betriebsabläufe sicherstellen können. Mithilfe der bereitgestellten Dashboards können Sie fehlerhafte Knoten schnell identifizieren und beheben, um effiziente Trainingslaufzeiten zu erreichen.

Container Insights erfasst über SageMaker detaillierte Zustandprüfungsergebnisse von den HyperPod-Knoten und visualisiert sie in den bereitgestellten Dashboards. So haben Sie den Zustand und die Leistung der Knoten jederzeit im Blick und können entscheiden, ob sie für das Scheduling bereit sind. Container Insights unterstützt Sie bei der Optimierung der Trainingslaufzeit, indem es ausgefallene Knoten als „Neustart ausstehend“ oder „Ersatz ausstehend“ klassifiziert und Ihnen hilft die Knotenbetriebsbereitschaft sicherzustellen, falls der automatische Austausch von Knoten deaktiviert ist. Wenn die automatische Wiederherstellung aktiviert ist, gewinnen Sie Einblicke in Knotenmutationen und Verzögerungen bei Trainingsjobs und können verstehen, wie Ihre Aufgaben seit dem letzten Checkpoint fortgesetzt wurden.

Der Einstieg in Container Insights ist einfach. Sie können das Onboarding durchführen und entweder das CloudWatch Observability EKS-Add-on oder den aktuellen CloudWatch-Agenten in Ihren Clustern installieren oder Ihre Helm-Charts auf die aktuelle Version des CloudWatch-Agenten aktualisieren. Nach der Konfiguration können Sie zur Container Insights-Konsole navigieren und den Status Ihres SageMaker Hyperpod-Knotens sofort einsehen.

Die Überwachung des Zustands von SageMaker HyperPod-Knoten ist jetzt in Container Insights für EKS in allen kommerziellen Regionen verfügbar, in denen SageMaker HyperPod verfügbar ist. Die Zustandsmetriken für HyperPod-Knoten werden beobachtungsbasiert abgerechnet. Einzelheiten finden Sie auf der Preisseite von Container Insights. Weitere Informationen finden Sie im Benutzerhandbuch zu Container Insights.