透過全新的 Amazon SageMaker AI MCP 伺服器管理 Amazon SageMaker HyperPod 叢集

張貼日期: 2025年11月25日

Amazon SageMaker AI MCP 伺服器現在支援可協助您設定和管理 HyperPod 叢集的工具。Amazon SageMaker HyperPod 可快速擴展模型開發任務 (例如在 AI 加速器叢集中訓練、微調或部署),從而消除建置生成式 AI 模型所涉及的非差異化繁重工作。SageMaker AI MCP 伺服器現在使 AI 編碼助理得以佈建和操作 AI/ML 叢集,以進行模型訓練和部署。

AWS 中的 MCP 伺服器會提供標準介面,透過為 AI 程式碼助理提供對各種 AWS 服務的即時關聯式理解,加強 AI 輔助式應用程式開發。SageMaker AI MCP 伺服器會隨附多項工具,可讓您使用所選擇的 AI 助理簡化從初始設定到持續管理的端對端 AI/ML 叢集作業。這使 AI 代理程式能夠可靠地設定由 Amazon EKS 或 Slurm 所協調的 HyperPod 叢集,並完整包含所有先決條件,同時由 CloudFormation 範本提供支援,可最佳化網路、儲存和運算資源。透過此 MCP 伺服器建立的叢集,已經針對高效能分散式訓練和推論工作負載進行完全最佳化,可利用最佳實務架構來最大限度地提高輸送量並最大限度地降低延遲。此外,該伺服器還提供用於叢集和節點管理的全面工具,包括擴展作業、套用軟體修補程式以及執行各種維護工作。與 AWS API MCP 伺服器、AWS Knowledge MCP 伺服器和 Amazon EKS MCP 伺服器搭配使用時,您能夠完整覆蓋所有的 SageMaker HyperPod API,並且可以有效地疑難排解常見問題,例如診斷無法存取叢集節點的原因。對於叢集管理員來說,這些工具可簡化日常作業。對於資料科學家來說,這些工具可以讓您在不需要基礎結構專業知識的情況下大規模設定 AI/ML 叢集,讓您專注於最重要模型訓練和部署作業上。

您能夠在提供 SageMaker HyperPod 的所有區域內,透過 SageMaker AI MCP 伺服器管理您的 AI/ML 叢集。若要著手使用,請參閱 AWS MCP 伺服器文件