Giới thiệu Giám sát tình trạng GPU và Tự động sửa chữa cho các phiên bản được Amazon ECS quản lý
Amazon Elastic Container Service (Amazon ECS) hiện cung cấp chức năng giám sát tình trạng GPU NVIDIA và chức năng sửa chữa tự động cho các Phiên bản được Amazon ECS quản lý. Khả năng mới sẽ tự động phát hiện các lỗi phần cứng GPU NVIDIA quan trọng và thay thế các phiên bản bị ảnh hưởng, giúp khách hàng cải thiện độ sẵn sàng và độ tin cậy của khối lượng công việc trong bộ chứa, được tăng tốc bằng GPU.
Hoạt động chạy khối lượng công việc được tăng tốc bằng GPU, như suy luận GenAI, đòi hỏi phải có sự quản lý phần cứng chuyên biệt để giảm nhẹ lỗi và giảm thiểu tình trạng gián đoạn. Phiên bản được Amazon ECS quản lý giờ đây liên tục theo dõi tình trạng của GPU bằng Trình quản lý GPU của Trung tâm dữ liệu NVIDIA (DCGM) và chủ động thay thế dung lượng bị suy giảm khi xảy ra lỗi nghiêm trọng. Bạn có thể theo dõi tình trạng GPU thông qua API DescribeContainerInstances và nhận thông báo qua Amazon EventBridge khi các phiên bản bị suy yếu. Đối với khối lượng công việc mà bạn muốn quản lý thủ công vòng đời phiên bản, bạn có thể chọn không tự động sửa chữa ở cấp độ nhà cung cấp dung lượng và xử lý các sự kiện lỗi GPU bằng logic khắc phục của riêng bạn.
Tính năng tự động sửa chữa tình trạng GPU được kích hoạt mặc định trên tất cả các Phiên bản được Amazon ECS quản lý chạy trên các loại phiên bản GPU NVIDIA được hỗ trợ mà khách hàng không mất thêm chi phí. Khả năng này được cung cấp ở tất cả các Khu vực AWS thương mại. Để tìm hiểu thêm, hãy truy cập Hướng dẫn về Amazon ECS dành cho nhà phát triển.