Veröffentlicht am: Mar 11, 2024
Amazon CloudWatch Container Insights mit verbesserter Beobachtbarkeit für EKS erkennt jetzt automatisch wichtige Zustands- und Leistungskennzahlen Ihrer NVIDIA-GPUs und stellt sie in automatischen Dashboards bereit, um eine schnellere Problemisolierung und Fehlerbehebung für Ihre KI/ML-Workloads zu ermöglichen. Container Insights mit verbesserter Beobachtbarkeit liefert Ihnen sofort einsatzbereite Trends und Muster zum Zustand Ihrer Infrastruktur und macht das manuelle Einrichten von Dashboards und Alarmen überflüssig, was Ihnen Zeit und Mühe spart.
Dank der verbesserten Beobachtbarkeit in Container Insights können Sie jetzt leichter den Zustand Ihrer GPUs und Ihres Arbeitsspeichers auf beschleunigten Instances überprüfen und die Leistung ihrer Trainingsaufträge sicherstellen. Sie können Fehler leicht lokalisieren, schnell die Ursache ermitteln und dabei lange Unterbrechungen bei Ihren Trainingsaufträgen verhindern. Enhanced Container Insights bietet beschleunigt berechnete Beobachtbarkeit in kuratierten Visualisierungen und ermöglicht es Ihnen, auf einfache Weise zu überwachen, wie effizient Ihre Ressourcen von Ihren verteilten Trainingsmodellen verbraucht werden. Sie können Ihre Zuordnungen dann entsprechend optimieren.
Der Einstieg in die beschleunigt berechnete Beobachtbarkeit ist einfach. Sie können Enhanced Container Insights integrieren, indem Sie entweder das Add-on „CloudWatch Observability“ in Ihren Clustern installieren oder manuell den CloudWatch Agent installieren, um die erweiterte Beobachtbarkeit zu aktivieren. Nach der Konfiguration können Sie zur Container-Insights-Konsole navigieren und Ihre NVIDIA-GPU-Telemetriedaten sofort anzeigen.
NVIDIA-GPU-Kennzahlen sind jetzt in Container Insights mit verbesserter Beobachtbarkeit für EKS in allen öffentlichen AWS-Regionen verfügbar, einschließlich der Regionen AWS GovCloud (USA) und China. NVIDIA-GPU-Kennzahlen richten sich nach beobachtungsbasierten Preisen – Einzelheiten finden Sie auf der Preisseite von Container Insights. Weitere Informationen finden Sie im Benutzerhandbuch zu Container Insights.
22.04. – Der Artikel wurde aktualisiert und enthält nun Anweisungen zum manuellen Einstieg.