Amazon ECS Yönetilen Bulut Sunucuları İçin GPU Durumu İzleme Ve Otomatik Onarım Tanıtımı
Amazon Elastic Container Service (Amazon ECS) artık Amazon ECS Yönetilen Bulut Sunucuları için NVIDIA GPU durumu izleme ve otomatik onarım işlevi sunuyor. Bu yeni özellik, kritik NVIDIA GPU donanım arızalarını otomatik olarak algılar ve bozulmuş bulut sunucularının yerini alarak müşterilerin GPU hızlandırmalı container'lı iş yüklerinin kullanılabilirliğini ve güvenilirliğini artırmalarına yardımcı olur.
Üretken yapay zeka çıkarımı gibi GPU hızlandırmalı iş yüklerini çalıştırmak için hataları ve kesintileri en aza indiren özel donanım yönetimine ihtiyaç vardır. Amazon ECS Yönetilen Bulut Sunucuları artık NVIDIA Veri Merkezi GPU Yöneticisi (DCGM) kullanarak GPU durumunu sürekli olarak izler ve kritik arızalar meydana geldiğinde bozulmuş kapasiteyi proaktif olarak değiştirir. DescribeContainerInstances API'si aracılığıyla GPU durumunu izleyip, bulut sunucuları bozulduğunda Amazon EventBridge üzerinden bildirim alabilirsiniz. Bulut sunucusu yaşam döngüsünü manuel yönetmeyi tercih ettiğiniz iş yüklerinde, kapasite sağlayıcısı düzeyinde otomatik onarımı devre dışı bırakabilir, GPU hata olaylarını kendi düzeltme mantığınızla ele alabilirsiniz.
GPU durumu otomatik onarımı, desteklenen NVIDIA GPU bulut sunucusu türlerinde çalışan tüm Amazon ECS Yönetilen Bulut Sunucularında, ek ücret ödemeden varsayılan olarak etkinleştirilir. Bu özellik, tüm AWS Ticari Bölgelerinde kullanılabilir. Daha fazla bilgi edinmek için Amazon ECS Geliştirici Kılavuzu'nu inceleyin.