Hỗ trợ Amazon EKS trong Amazon SageMaker HyperPod để điều chỉnh quy mô phát triển mô hình nền tảng
Chúng tôi rất vui được thông báo về việc hỗ trợ Amazon EKS trên SageMaker HyperPod trên quy mô lớn, cho phép khách hàng chạy và quản lý các khối lượng công việc Kubernetes trên SageMaker HyperPod, một cơ sở hạ tầng chuyên dụng để phát triển mô hình nền tảng (FM) giúp giảm tới 40% thời gian đào tạo mô hình.
Nhiều khách hàng sử dụng Kubernetes để điều phối các quy trình ML nhờ vào tính di động, khả năng điều chỉnh quy mô và hệ sinh thái công cụ phong phú. Những khách hàng này muốn tiếp tục sử dụng giao diện quen thuộc của Kubernetes, nhưng vẫn mong muốn có một phương thức tự động để quản lý các sự cố phần cứng. Khả năng hỗ trợ EKS trong HyperPod kết hợp lợi ích của SageMaker HyperPod (cung cấp các cụm hiệu suất cao tự phục hồi) với khả năng container hóa của Amazon EKS - một dịch vụ Kubernetes được quản lý. Với lần ra mắt này, khách hàng có thể chạy các quy trình kiểm tra tình trạng chuyên sâu trong quá trình tạo cụm để giảm thiểu sự cố trong quá trình đào tạo. Hơn nữa, HyperPod còn tự động thay thế các nút bị lỗi và tiếp tục đào tạo từ điểm kiểm tra gần nhất trên cả AWS Trainium và Nvidia GPU với quy mô hơn một nghìn bộ gia tốc. Khách hàng có thể linh hoạt sử dụng CLI HyperPod mới hoặc công cụ ưa thích của họ để gửi, quản lý và theo dõi khối lượng công việc. Môi trường cụm bền vững cung cấp quyền truy cập SSM và khả năng tùy chỉnh cụm. Cụm HyperPod được EKS điều phối cũng tích hợp với Thông tin chuyên sâu về bộ chứa của CloudWatch để cung cấp khả năng quan sát sẵn có, bằng cách tự động phát hiện trạng thái tình trạng của nút HyperPod và trực quan hóa chúng trên các bảng điều khiển được tuyển chọn.
Bản phát hành này được cung cấp rộng rãi ở các Khu vực AWS có SageMaker HyperPod, ngoại trừ Châu Âu (London).
Để tìm hiểu thêm, hãy tham khảo danh sách tài nguyên sau: Trang web, Blog tin tức AWS, Tài liệu, Kho Github.