Amazon SageMaker HyperPod รองรับการจัดการโทโพโลยี Slurm แบบอัตโนมัติแล้ว

โพสต์บน: 23 เม.ย. 2026

ขณะนี้ Amazon SageMaker HyperPod สามารถเลือกและดูแลการกำหนดค่าโทโพโลยีเครือข่ายที่เหมาะสมที่สุดสำหรับคลัสเตอร์ Slurm โดยอัตโนมัติอย่างต่อเนื่อง โดยอิงตามประเภทของอินสแตนซ์ GPU ภายในคลัสเตอร์ โทโพโลยีเครือข่ายส่งผลโดยตรงต่อประสิทธิภาพของการฝึกแบบกระจายตัว เมื่อมีการจัดวางงานบนโหนดที่อยู่ใกล้กันในเชิงโทโพโลยี การสื่อสารระหว่าง GPU จะเร็วขึ้น การดำเนินการแบบรวมของ NCCL มีประสิทธิภาพมากขึ้น และอัตราการโอนถ่ายข้อมูลในการฝึกจะดีขึ้น HyperPod จะปรับโทโพโลยีแบบไดนามิกตามการเปลี่ยนแปลงของคลัสเตอร์ผ่านการปรับขนาดและการเปลี่ยนโหนด ทำให้การจัดวางงานยังคงได้รับการปรับให้เหมาะสมตลอดวงจรชีวิตของคลัสเตอร์ โดยไม่ต้องอัปเดตไฟล์โทโพโลยีหรือปรับการตั้งค่า Slurm ด้วยตนเอง

HyperPod จะตรวจสอบประเภทอินสแตนซ์ในทุกกลุ่มอินสแตนซ์ระหว่างการสร้างคลัสเตอร์ ระบุลักษณะเครือข่ายและการเชื่อมต่อของแต่ละประเภทอินสแตนซ์ และเลือกโมเดลโทโพโลยีที่เหมาะสมที่สุดโดยอัตโนมัติ HyperPod รองรับโทโพโลยีแบบ Tree สำหรับประเภทอินสแตนซ์ที่มีการเชื่อมต่อแบบลำดับชั้น เช่น ml.p5.48xlarge, ml.p5e.48xlarge และ ml.p5en.48xlarge และบล็อกโทโพโลยีแบบ Block สำหรับประเภทอินสแตนซ์ที่มีการเชื่อมต่อแบนด์วิดท์สูงแบบสม่ำเสมอ เช่น ml.p6e-gb200.NVL72 สำหรับคลัสเตอร์ที่มีประเภทอินสแตนซ์แบบผสม HyperPod จะเลือกโทโพโลยีที่เข้ากันได้ซึ่งสามารถทำงานร่วมกันได้ในทุกโหนด เมื่อคลัสเตอร์มีการเปลี่ยนแปลงผ่านเหตุการณ์การขยายขนาด การลดขนาด หรือการเปลี่ยนโหนด HyperPod จะอัปเดตการกำหนดค่าโทโพโลยีโดยอัตโนมัติ โดยไม่ต้องมีการดำเนินการด้วยตนเอง ทำให้โทโพโลยีสะท้อนสถานะจริงของคลัสเตอร์อยู่เสมอ

หากต้องการเริ่มต้น ให้สร้างคลัสเตอร์ SageMaker HyperPod Slurm ด้วยประเภทอินสแตนซ์ GPU ที่รองรับ การกำหนดเวลาที่คำนึงถึงโทโพโลยีถูกเปิดใช้งานโดยค่าเริ่มต้น และไม่ต้องมีการตั้งค่าเพิ่มเติม

ฟีเจอร์นี้พร้อมใช้งานใน AWS Region ทุกแห่งที่รองรับ Amazon SageMaker HyperPod หากต้องการเรียนรู้เพิ่มเติมเกี่ยวกับการกำหนดเวลาที่คำนึงถึงโทโพโลยี โปรดไปที่เอกสารประกอบ Amazon SageMaker HyperPod