ตอนนี้ SageMaker HyperPod รองรับการกำหนดเวลาแบบกลุ่มสำหรับเวิร์กโหลดการฝึกแบบกระจายแล้ว
ตอนนี้ การกำกับดูแล Task ของ Amazon SageMaker HyperPod รองรับการกำหนดเวลาแบบกลุ่ม (Gang scheduling) แล้ว ซึ่งช่วยให้มั่นใจได้ว่าพ็อดทั้งหมดที่จำเป็นสำหรับงานการฝึกแบบกระจายจะพร้อมก่อนเริ่มการฝึก ผู้ดูแลระบบสามารถกำหนดค่าการกำหนดเวลาแบบกลุ่ม เพื่อป้องกันการสูญเสียทรัพยากรการประมวลผลจากการรันงานเพียงบางส่วน และหลีกเลี่ยงการหยุดชะงักจากงานที่รอทรัพยากรอยู่
นักวิทยาศาสตร์ข้อมูลที่รันงานการฝึก AI/ML แบบกระจายบนคลัสเตอร์ Amazon SageMaker HyperPod โดยใช้เครื่องมือควบคุมระบบ EKS จำเป็นต้องใช้พ็อดหลายตัวเพื่อทำงานร่วมกันข้ามโหนด พร้อมการสื่อสารระหว่างพ็อด เมื่อพ็อดบางตัวเริ่มทำงาน แต่บางตัวยังไม่เริ่ม งานก็อาจดึงทรัพยากรไว้โดยไม่เกิดความคืบหน้า ขัดขวางเวิร์กโหลดอื่น ๆ และเพิ่มต้นทุนได้ การกำหนดเวลาแบบกลุ่มช่วยแก้ไขปัญหานี้โดยการตรวจสอบพ็อดทั้งหมดในเวิร์กโหลด และดึงเวิร์กโหลดกลับ หากพ็อดทั้งหมดไม่พร้อมภายในเวลาที่กำหนด เวิร์กโหลดที่ถูกดึงกลับจะถูกนำกลับเข้าคิวโดยอัตโนมัติ เพื่อป้องกันการหยุดชะงัก ผู้ดูแลระบบสามารถปรับการตั้งค่าบนคอนโซล HyperPod เช่น ระยะเวลารอให้พ็อดพร้อม วิธีการจัดการกับความล้มเหลวของโหนด การยอมรับเวิร์กโหลดทีละรายการเพื่อหลีกเลี่ยงภาวะหยุดชะงักในคลัสเตอร์ที่มีการใช้งานมาก และวิธีการกำหนดเวลาการลองใหม่
ปัจจุบัน ความสามารถนี้พร้อมใช้งานสำหรับคลัสเตอร์ Amazon SageMaker HyperPod ที่ใช้เครื่องมือควบคุมระบบ EKS ใน AWS Region ต่อไปนี้ ได้แก่ สหรัฐอเมริกาฝั่งตะวันออก (เวอร์จิเนียฝั่งเหนือ), สหรัฐอเมริกาฝั่งตะวันออก (โอไฮโอ), สหรัฐอเมริกาฝั่งตะวันตก (แคลิฟอร์เนียเหนือ), สหรัฐอเมริกาฝั่งตะวันตก (ออริกอน), เอเชียแปซิฟิก (มุมไบ), เอเชียแปซิฟิก (สิงคโปร์), เอเชียแปซิฟิก (ซิดนีย์) และเอเชียแปซิฟิก (โตเกียว), เอเชียแปซิฟิก (จาการ์ตา), ยุโรป (แฟรงก์เฟิร์ต), ยุโรป (ไอร์แลนด์), ยุโรป (ลอนดอน), ยุโรป (สตอกโฮล์ม), ยุโรป (สเปน) และอเมริกาใต้ (เซาเปาลู)
หากต้องการดูเพิ่มเติม โปรดไปที่หน้าเว็บ SageMaker HyperPod และเอกสารประกอบการกำกับดูแล Task ของ HyperPod