Amazon SageMaker HyperPod hiện cung cấp các kỹ năng khắc phục sự cố cho trợ lý lập trình dựa trên AI
Amazon SageMaker HyperPod hiện cung cấp các kỹ năng khắc phục sự cố, đưa chẩn đoán cụm AI/ML cấp chuyên gia trực tiếp vào các trợ lý lập trình dựa trên AI như Claude Code, Cursor và Kiro. SageMaker HyperPod là cơ sở hạ tầng được xây dựng cho mục đích nhất định để phát triển, đào tạo và triển khai các mô hình nền tảng trên quy mô lớn. SageMaker HyperPod cung cấp môi trường có khả năng phục hồi, đạt hiệu năng cao với khả năng chịu lỗi tích hợp sẵn và phục hồi cụm tự động. Điều này giúp giảm bớt gánh nặng không tạo ra lợi thế cạnh tranh khi quản lý cơ sở hạ tầng AI/ML quy mô lớn. Kỹ năng HyperPod cho phép bạn chẩn đoán và giải quyết các sự cố liên quan đến cụm thông qua ngôn ngữ tự nhiên, giảm thời gian và chuyên môn cần thiết để khắc phục sự cố cơ sở hạ tầng đào tạo phân tán và suy luận.
Việc gỡ lỗi phần cứng GPU, chẩn đoán lỗi giao tiếp NCCL và xác định các điểm nghẽn hiệu năng trên các cụm phân tán lớn vẫn phức tạp và tốn thời gian. Các nhà khai thác thường cần truy cập SSM thủ công vào các nút, phân tích cú pháp bản ghi trên hàng chục phiên bản và đối chiếu chéo tài liệu. Các kỹ năng khắc phục sự cố mới của HyperPod giúp giải quyết nhanh hơn với các khả năng bao gồm xác thực tình trạng cụm, chẩn đoán phần cứng và giao tiếp, sai lệch phiên bản phần mềm và báo cáo chẩn đoán tự động. Mỗi kỹ năng biến các thực hành tốt nhất của AWS thành quy trình công việc chẩn đoán có cấu trúc, giúp định hướng tác tử AI một cách có hệ thống để thu thập bằng chứng từ các nút cụm của bạn thông qua Trình quản lý hệ thống AWS, phân tích các mẫu và đưa ra đề xuất thiết thực. Các kỹ năng hoạt động với cơ sở hạ tầng HyperPod hiện có của bạn mà không cần sửa đổi.
Các kỹ năng khắc phục sự cố của HyperPod ở dạng nguồn mở và hiện có sẵn cho cả cụm HyperPod do Slurm và Amazon EKS điều phối thông qua plugin kỹ năng AI của SageMaker. Để bắt đầu, hãy truy cập kho lưu trữ github AWSLabs để cài đặt plugin sagemaker-ai trong trợ lý lập trình yêu thích của bạn.