Wir stellen vor: GPU-Zustandsüberwachung und automatische Reparatur für von Amazon ECS verwaltete Instances

Veröffentlicht am: 22. Apr. 2026

Amazon Elastic Container Service (Amazon ECS) bietet jetzt Funktionen zur Überwachung des GPU-Zustands und zur automatischen Reparatur von Amazon ECS verwaltete Instances. Die neue Funktion erkennt automatisch kritische NVIDIA-GPU-Hardwareausfälle und ersetzt beeinträchtigte Instances, sodass Kunden die Verfügbarkeit und Zuverlässigkeit ihrer GPU-beschleunigten containerisierten Workloads verbessern können.

Die Ausführung von GPU-beschleunigten Workloads wie GenAI-Inferenz erfordert ein spezielles Hardwaremanagement, um Ausfälle zu reduzieren und Unterbrechungen zu minimieren. Amazon ECS Managed Instances überwachen jetzt kontinuierlich den GPU-Zustand mithilfe von NVIDIA Data Center GPU Manager (DCGM) und ersetzen proaktiv beeinträchtigte Kapazitäten, wenn kritische Ausfälle auftreten. Sie können den GPU-Zustand über die DescribeContainerInstances-API überwachen und über Amazon EventBridge Benachrichtigungen erhalten, wenn Instances beeinträchtigt werden. Für Workloads, bei denen Sie den Instance-Lebenszyklus lieber manuell verwalten, können Sie die automatische Reparatur auf Ebene des Kapazitätsanbieters deaktivieren und GPU-Fehlerereignisse mit Ihrer eigenen Behebungslogik behandeln.

Die automatische Reparatur des GPU-Zustands ist standardmäßig auf allen Amazon ECS Managed Instances aktiviert, die ohne zusätzliche Kosten auf unterstützten NVIDIA-GPU-Instance-Typen ausgeführt werden. Diese Funktion ist in allen kommerziellen AWS-Regionen verfügbar. Mehr erfahren Sie im Amazon-ECS-Entwicklerhandbuch.