SageMaker HyperPod 現在支援 LLM 任務的拓樸感知排程

張貼日期: 2025年8月14日

SageMaker HyperPod 任務治理現在支援拓樸感知排程 (TAS),使資料科學家能夠在最佳網路拓樸上排程其大型語言模型 (LLM) 工作,最大程度地減少網路通訊並提高訓練效率。

分佈在多個加速運算執行個體之間的 LLM 訓練和微調工作,經常會在執行個體之間交換大量資料。執行個體之間的多次網路跳轉可能會導致更高的通訊延遲,進而影響 LLM 工作效能。現在,SageMaker HyperPod 任務治理可讓資料科學家在使用特定拓樸偏好設定排程工作時使用網路拓樸資訊。透過 HyperPod 中的網路拓撲,SageMaker HyperPod 任務治理會自動在最佳位置排程任務,減少執行個體間通訊,並提高訓練效率。

SageMaker HyperPod 任務治理已在提供 HyperPod 的所有 AWS 區域推出:美國西部 (加利佛尼亞北部)、美國西部 (奧勒岡)、亞太地區 (新加坡)、亞太地區 (雪梨)、歐洲 (法蘭克福)、歐洲 (愛爾蘭)、歐洲 (斯德哥爾摩)。

若要進一步了解,請造訪 SageMaker HyperPod 網頁,以及 SageMaker HyperPod 任務治理文件