AWS 導入 Amazon ECS 受管理執行個體的 GPU 運作狀態監控和自動修復功能

張貼日期: 2026年4月22日

Amazon Elastic Container Service (Amazon ECS) 現在為 Amazon ECS 受管執行個體提供 NVIDIA GPU 運作狀態監控和自動修復功能。新功能會自動偵測重要的 NVIDIA GPU 硬體故障，並取代受損的執行個體，從而協助客戶提高 GPU 加速容器化工作負載的可用性和可靠性。

執行 GPU 加速工作負載 (例如 GenAI 推論) 需要專門的硬體管理來減輕故障，並最大限度地減少中斷。Amazon ECS 受管執行個體現在使用 NVIDIA Data Center GPU Manager (DCGM) 持續監控 GPU 運作狀態，並在發生嚴重故障時主動取代受損的運算能力。您能夠透過 DescribeContainerInstances API 監控 GPU 運作狀態，並在執行個體受損時透過 Amazon EventBridge 接收通知。對於您偏好手動管理執行個體生命週期的工作負載，可以在運算能力提供者層級選擇退出自動修復功能，並使用自己的修復邏輯處理 GPU 錯誤事件。

根據預設，系統會在支援之 NVIDIA GPU 執行個體類型上執行的所有 Amazon ECS 受管執行個體上啟用 GPU 運作狀態自動修復功能，無需額外費用。該功能適用於所有 AWS 商業區域。若要進一步了解，請瀏覽 Amazon ECS 開發人員指南。

AWS 導入 Amazon ECS 受管理執行個體的 GPU 運作狀態監控和自動修復功能

了解

資源

開發人員

說明