Quản lý cụm Amazon SageMaker HyperPod bằng máy chủ MCP của Amazon SageMaker AI mới

Ngày đăng: 25 Th11 2025

Máy chủ MCP của Amazon SageMaker AI hiện đã hỗ trợ các công cụ giúp bạn thiết lập và quản lý cụm HyperPod. Amazon SageMaker HyperPod loại bỏ các công việc nặng nhọc không tạo sự khác biệt, liên quan đến quá trình xây dựng mô hình AI tạo sinh, bằng cách nhanh chóng điều chỉnh quy mô tác vụ phát triển mô hình như đào tạo, tinh chỉnh hoặc triển khai trên một cụm bộ tăng tốc AI. Máy chủ MCP của SageMaker AI hiện cho phép các trợ lý lập trình AI cung cấp và vận hành các cụm AI/ML phục vụ công tác đào tạo và triển khai mô hình.

Các máy chủ MCP trong AWS cung cấp giao diện tiêu chuẩn để tăng cường khả năng phát triển ứng dụng được AI hỗ trợ bằng cách trang bị cho trợ lý lập trình AI hiểu biết theo ngữ cảnh trong thời gian thực về nhiều dịch vụ AWS khác nhau. Máy chủ MCP của SageMaker AI đi kèm nhiều công cụ tinh giản các hoạt động hoàn chỉnh của cụm AI/ML bằng cách sử dụng trợ lý AI bạn chọn – từ thiết lập ban đầu đến quản lý liên tục. Việc này cho phép tác tử AI thiết lập một cách đáng tin cậy các cụm HyperPod được điều phối bởi Amazon EKS hoặc Slurm hoàn chỉnh bằng các điều kiện tiên quyết, lấy cơ sở từ các mẫu CloudFormation giúp tối ưu hóa mạng, lưu trữ và tài nguyên điện toán. Các cụm được tạo thông qua máy chủ MCP này được tối ưu hóa toàn phần cho khối lượng công việc suy luận và huấn luyện phân tán hiệu năng cao, tận dụng kiến trúc theo phương pháp tốt nhất để tăng tối đa thông lượng và giảm thiểu độ trễ trên quy mô lớn. Ngoài ra, tính năng này còn cung cấp các công cụ toàn diện phục vụ công tác quản lý cụm và nút – bao gồm điều chỉnh quy mô thao tác, áp dụng bản vá phần mềm và thực hiện nhiều tác vụ bảo trì khác nhau. Khi được sử dụng kết hợp với Máy chủ MCP AWS API, Máy chủ AWS Knowledge MCP và Máy chủ MCP Amazon EKS, bạn sẽ có được phạm vi bao quát toàn bộ các API của SageMaker HyperPod để có thể khắc phục sự cố thường gặp một cách hiệu quả, ví dụ: chẩn đoán lý do tại sao nút cụm không truy cập được. Đối với quản trị viên cụm, các công cụ này giúp tinh giản hoạt động hàng ngày. Còn đối với nhà khoa học dữ liệu, các công cụ này giúp bạn thiết lập cụm AI/ML trên quy mô lớn mà không đòi hỏi chuyên môn về cơ sở hạ tầng, cho phép bạn tập trung vào những gì quan trọng nhất – huấn luyện và triển khai mô hình.

Bạn có thể quản lý các cụm AI/ML của mình thông qua máy chủ MCP của SageMaker AI ở tất cả các khu vực cung cấp dịch vụ SageMaker HyperPod. Để bắt đầu, hãy truy cập tài liệu về máy chủ MCP của AWS.