Amazon SageMaker HyperPod รองรับการตรวจสอบสถานะเชิงลึกตามความต้องการแล้ว
ตอนนี้ Amazon SageMaker HyperPod รองรับการตรวจสอบสถานะเชิงลึกตามความต้องการสำหรับ Amazon EKS และคลัสเตอร์ที่จัดเรียงโดย SLURM ช่วยให้คุณสามารถตรวจสอบสภาพตัวเร่งความเร็วของ GPU ในเชิงรุกในอินสแตนซ์ที่กำลังทำงานได้ตลอดเวลา ตอนนี้คลัสเตอร์ที่จัดโครงการ Slurm HyperPod ยังรองรับการตรวจสอบสถานะเชิงลึกระหว่างการจัดเตรียมโหนดในขณะที่สร้างคลัสเตอร์ ความสามารถนี้ตอบสนองต่อความท้าทายที่สำคัญที่แม้แต่โหนดที่ไม่ดีต่อสุขภาพก็สามารถเสียเวลาในการคำนวณหลายชั่วโมงและชะลอเวิร์กโหลดที่สำคัญได้
การตรวจสอบสถานะเชิงลึกตามความต้องการทำให้คุณสามารถกำหนดเป้าหมายกลุ่มอินสแตนซ์ทั้งหมดหรืออินสแตนซ์เฉพาะเพื่อดำเนินการทดสอบความเครียดของฮาร์ดแวร์และการทดสอบการเชื่อมต่อที่ครอบคลุมก่อนที่จะใช้ทรัพยากรคำนวณให้กับงาน ความคืบหน้าและผลลัพธ์สามารถมองเห็นได้ทั้งในกลุ่มอินสแตนซ์และระดับอินสแตนซ์ผ่านคอนโซล SageMaker และ API ทำให้สามารถมองเห็นได้อย่างสมบูรณ์เกี่ยวกับสุขภาพ GPU การเชื่อมต่อเครือข่าย และประสิทธิภาพการสื่อสารแบบหลายโหนด อินสแตนซ์ที่ผ่านการตรวจสอบจะถูกแยกออกจากการกำหนดเวลาเวิร์กโหลดโดยอัตโนมัติและกลับสู่บริการเมื่อผ่านแล้ว เมื่อจับคู่กับความสามารถในการกู้คืนโหนดอัตโนมัติของ HyperPod อินสแตนซ์ที่ล้มเหลวจะถูกรีบูตหรือแทนที่โดยอัตโนมัติ ทำให้มั่นใจได้ถึงสถานะของคลัสเตอร์
ความสามารถนี้สามารถใช้ได้ในทุกรีเจี้ยนที่มี Amazon SageMaker HyperPod ให้บริการ หากต้องการเรียนรู้เพิ่มเติมเกี่ยวกับการตรวจสอบสถานะตามความต้องการ โปรดดูเอกสารประกอบ