Amazon SageMaker HyperPod รองรับการกำหนดค่า Slurm ที่ขับเคลื่อนด้วย API แล้ว
Amazon SageMaker HyperPod รองรับการกำหนดค่า Slurm ที่ขับเคลื่อนด้วย API แล้ว ซึ่งทำให้คุณสามารถกำหนดโทโพโลยีของ Slurm และการกำหนดค่าระบบไฟล์ที่ใช้ร่วมกันได้โดยตรงใน API สำหรับการสร้างและอัปเดตคลัสเตอร์ หรือผ่านทางคอนโซล AWS SageMaker HyperPod ช่วยให้คุณจัดเตรียมคลัสเตอร์ที่ยืดหยุ่นสำหรับเวิร์กโหลดของแมชชีนเลิร์นนิง (ML) และพัฒนาโมเดลที่ทันสมัย เช่น โมเดลภาษาขนาดใหญ่ (LLM) โมเดลการแพร่กระจาย และโมเดลพื้นฐาน (FM)
การกำหนดค่าแบบใหม่ที่ขับเคลื่อนด้วย API นี้ คุณสามารถระบุประเภทโหนด Slurm ได้แล้ว ซึ่งรวมถึงตัวควบคุม การเข้าสู่ระบบ และการประมวลผลสำหรับกลุ่มอินสแตนซ์คลัสเตอร์ การแมปกลุ่มอินสแตนซ์ไปยังพาร์ติชัน และการติดตั้งระบบไฟล์ FSx สำหรับ Lustre และ FSx สำหรับ OpenZFS ต่อกลุ่มอินสแตนซ์โดยตรงในคำจำกัดความ API ของคลัสเตอร์ หรือผ่านส่วนการกำหนดค่าขั้นสูงในคอนโซล AWS เมื่อคุณแก้ไขการแมปพาร์ติชัน-โหนดโดยตรงในไฟล์การกำหนดค่าแบบเนทีฟของ Slurm เพื่อปรับแต่งการกำหนดทรัพยากรของคลัสเตอร์ การกำหนดค่าพาร์ติชัน-โหนดของ Slurm อาจดริฟต์จากมุมมองของ HyperPod ได้ SlurmConfigStrategy ระดับคลัสเตอร์แบบใหม่จะช่วยให้คุณจัดการการดริฟต์ได้ด้วยสามตัวเลือก ได้แก่ มีการจัดการ เขียนทับ และผสานรวม กลยุทธ์แบบมีการจัดการช่วยให้คุณจัดการการแมปกลุ่มอินสแตนซ์ไปยังพาร์ติชันได้อย่างสมบูรณ์ผ่าน API หรือคอนโซล และตรวจจับดริฟต์ในการแมปพาร์ติชันไปยังโหนดโดยอัตโนมัติในระหว่างการดำเนินการปรับขนาดขึ้นหรือปรับขนาดลง เมื่อตรวจพบการดริฟต์ การอัปเดตคลัสเตอร์จะหยุดชั่วคราวจนกว่าคุณจะแก้ไขปัญหาโดยการเปลี่ยนไปใช้กลยุทธ์การเขียนทับ เพื่อบังคับใช้การแมปที่กำหนดโดย API กลยุทธ์การผสานรวม เพื่อรักษาการปรับแต่งด้วยตนเอง หรือโดยการอัปเดตการกำหนดค่า Slurm โดยตรงเพื่อให้สอดคล้องกับ HyperPod
การกำหนดค่า Slurm ที่ขับเคลื่อนด้วย API สามารถใช้งานได้ใน AWS Region ทุกแห่งที่มี SageMaker HyperPod ให้บริการ หากต้องการเริ่มต้นใช้งาน คุณสามารถใช้คอนโซลการจัดการของ AWS, AWS CLI, AWS CloudFormation หรือ AWS SDK ดูข้อมูลเพิ่มเติมได้ในเอกสารประกอบ Amazon SageMaker HyperPod สำหรับการสร้างคลัสเตอร์โดยใช้คอนโซล หรือ CLI และการอ้างอิง API สำหรับ CreateCluster และ UpdateCluster