Amazon ECS 受管執行個體現在支援 NVIDIA GPU 指標
Amazon Elastic Container Service (Amazon ECS) 現在為在 Amazon ECS 受管執行個體上執行的容器化工作負載提供 NVIDIA GPU 指標。這些指標可透過 Amazon CloudWatch Container Insights 取得,具有增強的可觀測性,使客戶得以了解 GPU 運作狀態和效能,並協助在 Amazon ECS 上對 GPU 加速工作負載進行疑難排解和最佳化。
有了新的 GPU 指標,Amazon ECS 受管執行個體客戶現在能夠直接在 CloudWatch 監控 GPU 資源狀況、使用率、記憶體、硬體運作狀態和溫度條件。使用具有增強可觀測性的 Container Insights,客戶就能詳細掌握這些指標 (包括 GPU 裝置層級指標)。這些指標可讓客戶了解 Amazon ECS 受管執行個體機群中的 GPU 作業和硬體運作狀態,使客戶能夠在 GPU 加速工作負載 (例如 AI/ML 訓練和推論) 受到影響之前適當調整 GPU 資源大小、疑難排解效能問題,以及偵測問題。
Amazon ECS 受管執行個體的 NVIDIA GPU 指標可透過所有商業 AWS 區域的 Container Insights 取得。若要著手使用,請在 Amazon ECS 叢集上啟用具有增強可觀測性的 Container Insights,並透過 Amazon ECS 受管執行個體容量供應商啟動 GPU 加速的 Amazon EC2 執行個體類型。如需 Container Insights 定價,請參閱 Amazon CloudWatch 定價。若要進一步了解,請參閱具有增強可觀測性指標的 Amazon ECS Container Insights 使用者指南。