ขณะนี้ Amazon SageMaker HyperPod รองรับการจัดสรรทรัพยากรอย่างต่อเนื่องสำหรับคลัสเตอร์ที่ควบคุมระบบด้วย Slurm แล้ว

โพสต์บน: 25 มี.ค. 2026

ขณะนี้ Amazon SageMaker HyperPod ได้ขยายการรองรับการจัดสรรแบบต่อเนื่องไปยังคลัสเตอร์ที่ใช้เครื่องมือควบคุมระบบ Slurm ซึ่งช่วยเพิ่มความยืดหยุ่นและประสิทธิภาพสำหรับลูกค้าองค์กรที่ใช้งานเวิร์กโหลดการฝึก AI/ML ขนาดใหญ่ ลูกค้า AI/ML ที่ใช้งานคลัสเตอร์แบบ Slurm จำเป็นต้องเริ่มงานการฝึกได้อย่างรวดเร็ว ปรับขนาดได้อย่างราบรื่น ดำเนินการบำรุงรักษาโดยไม่รบกวนการทำงาน และมีการมองเห็นรายละเอียดเชิงลึกของการดำเนินงานของคลัสเตอร์ ก่อนหน้านี้ หากกลุ่มอินสแตนซ์ใดไม่สามารถจัดสรรได้ครบถ้วน การสร้างหรือการปรับขนาดคลัสเตอร์ทั้งหมดจะล้มเหลวและย้อนกลับ ส่งผลให้เกิดความล่าช้าและต้องมีการดำเนินการด้วยตนเอง

ด้วยการจัดสรรแบบต่อเนื่องสำหรับ Slurm จะทำให้ SageMaker HyperPod จัดสรรปริมาณการประมวลผลที่เหลือโดยอัตโนมัติในเบื้องหลังได้ ในขณะที่งานการฝึกสามารถเริ่มต้นได้ทันทีบนอินสแตนซ์ที่พร้อมใช้งาน ระบบใช้การจัดสรรตามลำดับความสำคัญเพื่อเปิดใช้งานโหนดตัวควบคุม Slurm ก่อน จากนั้นตามด้วยโหนดล็อกอินและ Worker Node แบบขนาน เพื่อให้คลัสเตอร์ของคุณเข้าสู่สถานะพร้อมใช้งานได้เร็วที่สุด HyperPod จะลองเปิดใช้งานโหนดที่ล้มเหลวใหม่แบบอะซิงโครนัส และเพิ่มโหนดเข้าสู่คลัสเตอร์ Slurm โดยอัตโนมัติเมื่อพร้อมใช้งาน เพื่อให้มั่นใจว่าคลัสเตอร์สามารถไปถึงขนาดที่ต้องการได้อย่างน่าเชื่อถือโดยไม่ต้องมีการดำเนินการด้วยตนเอง ขณะนี้คุณสามารถดำเนินการปรับขนาดแบบพร้อมกันที่ไม่บล็อกข้ามหลายกลุ่มอินสแตนซ์ได้ในเวลาเดียวกัน ซึ่งการขาดแคลนปริมาณการประมวลผลในกลุ่มอินสแตนซ์หนึ่งจะไม่บล็อกการปรับขนาดในกลุ่มอื่นอีกต่อไป ความสามารถเหล่านี้ช่วยให้ลูกค้าลดเวลาในการเริ่มงานการฝึก ใช้ทรัพยากรได้อย่างคุ้มค่าสูงสุด และมุ่งเน้นไปที่นวัตกรรมแทนการจัดการโครงสร้างพื้นฐาน

ฟีเจอร์นี้พร้อมใช้งานสำหรับคลัสเตอร์ SageMaker HyperPod ใหม่ที่ใช้เครื่องมือควบคุมระบบ Slurm คุณสามารถเปิดใช้งานการเตรียมการอย่างต่อเนื่องโดยการตั้งค่าพารามิเตอร์ NodeProvisioningMode ให้เป็น “Continuous” เมื่อสร้างคลัสเตอร์ HyperPod ใหม่โดยใช้ CreateCluster API นอกจากนี้ การจัดสรรแบบต่อเนื่องยังสามารถเปิดใช้งานได้เมื่อสร้างคลัสเตอร์ใหม่ผ่าน AWS CLI และคอนโซล SageMaker AI อีกด้วย

ฟีเจอร์นี้พร้อมใช้งานใน AWS Region ทุกแห่งที่รองรับ Amazon SageMaker HyperPod หากต้องการเรียนรู้เพิ่มเติมเกี่ยวกับการจัดสรรแบบต่อเนื่องสำหรับคลัสเตอร์ Slurm โปรดดูคู่มือผู้ใช้ Amazon SageMaker HyperPod