Amazon EKS 現在支援每個叢集多達 100,000 個工作節點

張貼日期: 2025年7月15日

Amazon EKS 今日宣佈在叢集中支援多達 100,000 個工作節點,讓您能夠在單一叢集中執行極大規模的 AI/ML 訓練和推論工作負載。有了 Amazon EC2 的新一代加速運算執行個體類型,您可以在單一叢集的 100,000 個工作節點中透過 Trn2 執行個體支援高達 1.6 百萬個 Trainium 晶片,並透過 P5 和 P6 執行個體支援 800,000 個 NVIDIA GPU。這可讓您執行極大規模的 AI/ML 工作負載,因為這些工作負載無法輕易分散到多個叢集中,所以需要在單一叢集中使用所有運算加速器。

具有數兆個參數的最先進的 AI 模型在了解上下文、推理和解決複雜任務方面展示出顯著增強的能力。若要建置和操作這些功能愈加強大的模型,組織需要在單一叢集中存取大量運算加速器。集中存取如此龐大的運算加速器集合,可實現以下的關鍵優勢:允許組織建置和部署比以往更強大的 AI 模型、在訓練和推論工作負載之間有效地共用運算加速器來降低成本,並且能夠順暢地使用未設計為跨叢集運作的現有 AI/ML 工具和架構。

若要進一步了解,請參閱發佈部落格