คลัสเตอร์ Amazon SageMaker HyperPod Slurm รองรับการระบุข้อกำหนดความจุขั้นต่ำด้วยการจัดสรรแบบต่อเนื่องแล้ว

โพสต์บน: 27 พ.ค. 2026

ขณะนี้ Amazon SageMaker HyperPod รองรับข้อกำหนดความจุขั้นต่ำ (MinCount) สำหรับคลัสเตอร์ที่ใช้การควบคุมระบบด้วย Slurm ร่วมกับการจัดสรรแบบต่อเนื่องแล้ว ด้วยการจัดสรรแบบต่อเนื่อง HyperPod จะจัดสรรคลัสเตอร์ด้วยความจุบางส่วนที่พร้อมใช้งาน เพื่อให้คุณสามารถเริ่มงาน AI/ML ได้อย่างรวดเร็ว ขณะเดียวกันก็ยังคงจัดสรรอินสแตนซ์ที่เหลือแบบอะซิงโครนัสในเบื้องหลังต่อไป แม้ว่าสิ่งนี้จะให้ความยืดหยุ่น แต่เวิร์กโหลดการฝึกบางประเภทจำเป็นต้องมีจำนวนโหนดขั้นต่ำที่รับประกันได้ก่อนจึงจะสามารถเริ่มทำงานได้อย่างมีประสิทธิภาพ MinCount ช่วยให้คุณสามารถระบุจำนวนอินสแตนซ์ขั้นต่ำที่ต้องได้รับการจัดสรรสำเร็จก่อนที่กลุ่มอินสแตนซ์จะเปลี่ยนไปอยู่ในสถานะ InService ซึ่งช่วยให้คุณควบคุมได้มากขึ้นว่าคลัสเตอร์ของคุณจะพร้อมสำหรับการจัดตารางงานเมื่อใด

ซึ่งมีประโยชน์อย่างยิ่งสำหรับเวิร์กโหลดการฝึกแบบกระจายที่ใช้เฟรมเวิร์ก เช่น PyTorch FSDP, Megatron-LM หรือ NVIDIA NeMo ซึ่งโดยทั่วไปงานการฝึกจะถูกกำหนดค่าให้ใช้จำนวนโหนดที่เข้าร่วมแบบคงที่ และอาจไม่สามารถเริ่มทำงานได้อย่างมีประสิทธิภาพหรือถูกต้องเมื่อคลัสเตอร์มีความจุเพียงบางส่วนเท่านั้น นอกจากนี้ ยังเป็นประโยชน์สำหรับทีมที่ต้องการรับประกันจำนวน GPU ขั้นต่ำเพื่อให้บรรลุเป้าหมาย SLA หรือเป้าหมายด้านความคุ้มค่าของต้นทุน ก่อนตัดสินใจเริ่มการฝึก

คุณสามารถระบุ MinInstanceCount ในคำขอ API CreateCluster หรือ UpdateCluster เพื่อกำหนดเกณฑ์ความจุขั้นต่ำสำหรับกลุ่มอินสแตนซ์ได้ กลุ่มอินสแตนซ์จะคงอยู่ในสถานะ Creating หรือ Updating จนกว่าจะถึงเกณฑ์ที่กำหนด จากนั้นจึงเปลี่ยนเป็นสถานะ InService และโหนดต่าง ๆ จะพร้อมสำหรับการจัดตารางงานของ Slurm HyperPod จะยังคงจัดสรรอินสแตนซ์เพิ่มเติมต่อไปนอกเหนือจาก MinCount จนกว่าจะถึงจำนวนเป้าหมายที่กำหนดไว้ หากไม่สามารถทำให้ MinCount เป็นไปตามที่กำหนดได้ภายใน 3 ชั่วโมง ระบบจะย้อนกลับกลุ่มอินสแตนซ์ไปยังสถานะที่ทำงานได้ปกติล่าสุดโดยอัตโนมัติ

MinCount สำหรับคลัสเตอร์ Slurm ที่ใช้การจัดสรรแบบต่อเนื่อง พร้อมใช้งานใน AWS Region ทุกแห่งที่ Amazon SageMaker HyperPod รองรับ หากต้องการเริ่มต้นกำหนดข้อกำหนดความจุขั้นต่ำสำหรับคลัสเตอร์ของคุณ โปรดดูข้อกำหนดความจุขั้นต่ำ (MinCount) ในเอกสารประกอบ Amazon SageMaker AI