Amazon SageMaker HyperPod 現支援從主控台執行節點動作

張貼日期: 2026年2月10日

Amazon SageMaker HyperPod 現讓您直接從 AWS Console 管理個別的叢集節點。管理大規模 AI/ML 工作負載的 HyperPod 叢集營運人員經常需要連線至節點進行疑難排解、將無回應的執行個體重新開機,或更換效能降低的節點。過去,連線至節點需要手動建立 SSM 連線字串,而重新開機與更換等節點復原動作則需要 CLI 命令;如今主控台為所有節點動作提供了單一介面。

借助主控台中的節點動作,您現可透過 AWS Systems Manager (SSM) 連線至任何節點。主控台提供預先填入且支援複製到剪貼簿的 SSM CLI 命令,並可直接在主控台啟動 SSM 工作階段。雖然 SageMaker HyperPod 叢集已支援自動更換及重新啟動運作狀態不佳的執行個體,但某些情況下 (例如記憶體溢位或無法偵測到的硬體效能下降) 可能需要手動介入。現在,主控台中的節點動作提供了一致的方法,能手動將節點重新開機以從暫時性問題中恢復、刪除運作狀態不佳的節點以及更換節點;透過支援同時處理多個節點動作的批次操作,讓您在幾分鐘內解決節點問題。這項功能在執行需要盡量減少停機時間且具時效性的 AI 訓練與推論工作負載時特別有價值。

此功能適用於支援 Amazon SageMaker HyperPod 的所有 AWS 區域。您可以在主控台的 HyperPod 叢集管理頁面執行所有這些節點動作。按一下相關連結以進一步了解更換/重新開機連線至節點