Amazon SageMaker HyperPod รองรับการรีบูตและเปลี่ยนโหนดแบบโปรแกรมแล้ว

โพสต์บน: 26 พ.ย. 2025

วันนี้ Amazon SageMaker HyperPod ประกาศความพร้อมใช้งานทั่วไปของ API ใหม่ที่ช่วยให้รีบูตแบบโปรแกรมและเปลี่ยนโหนดคลัสเตอร์ SageMaker HyperPod SageMaker HyperPod ช่วยให้คุณจัดเตรียมคลัสเตอร์ที่ยืดหยุ่นสำหรับเวิร์กโหลดของแมชชีนเลิร์นนิง (ML) และพัฒนาโมเดลที่ทันสมัย เช่น โมเดลภาษาขนาดใหญ่ (LLM) โมเดลการแพร่กระจาย และโมเดลพื้นฐาน (FM) API ของ BatchRebootClusterNodes และ BatchReplaceClusterNodes ใหม่ช่วยให้ลูกค้าสามารถรีบูตหรือแทนที่โหนดคลัสเตอร์ที่ไม่ตอบสนองหรือเสื่อมสภาพโดยมีเครื่องมือควบคุมระบบที่สม่ำเสมอและไม่เป็นระเบียบในการดำเนินการกู้คืนโหนด

API ใหม่ช่วยเพิ่มความสามารถในการจัดการโหนดสำหรับทั้งคลัสเตอร์ที่จัดเรียงโดย Slurm และ EKS ซึ่งเสริมการรีบูตและเวิร์กโฟลว์การเปลี่ยนโหนดที่มีอยู่ เครื่องมือควบคุมระบบที่มีอยู่ เช่น ป้ายกำกับ Kubernetes สำหรับคลัสเตอร์ EKS และคำสั่ง Slurm สำหรับคลัสเตอร์ Slurm ยังคงพร้อมใช้งานพร้อมกับความสามารถทางโปรแกรมที่เพิ่งเปิดตัวใหม่สำหรับการรีบูตและแทนที่การดำเนินการผ่าน API ที่สร้างขึ้นโดยวัตถุประสงค์เหล่านี้ เมื่อโหนดคลัสเตอร์ไม่ตอบสนองเนื่องจากปัญหาต่างๆเช่นหน่วยความจำเกินไปหรือการเสื่อมสภาพของฮาร์ดแวร์ การดำเนินการกู้คืนเช่นการรีบูตและการเปลี่ยนโหนดอาจเป็นสิ่งจำเป็นและสามารถเริ่มต้นผ่าน API ใหม่เหล่านี้ ความสามารถเหล่านี้มีค่าอย่างยิ่งเมื่อมีการทำงานเวิร์กโหลดที่คำนึงถึงเวลา ตัวอย่างเช่น เมื่อคอนโทรลเลอร์ Slurm เข้าสู่ระบบ หรือโหนดคำนวณไม่ตอบสนอง ผู้ดูแลระบบสามารถทริกเกอร์การดำเนินการรีบูตโดยใช้ API และตรวจสอบความคืบหน้าเพื่อให้โหนดกลับสู่สถานะการทำงาน ในทำนองเดียวกัน ผู้ดูแลระบบคลัสเตอร์ EKS สามารถแทนที่Worker Node ที่เสื่อมด้วยโปรแกรมได้ API แต่ละตัวรองรับการดำเนินการแบบแบทช์สูงสุด 25 อินสแตนซ์ ทำให้สามารถจัดการสถานการณ์การกู้คืนขนาดใหญ่ได้อย่างมีประสิทธิภาพ

ขณะนี้การรีบูตและแทนที่ API ได้รับการสนับสนุนในสาม AWS Region ที่มี SageMaker HyperPod พร้อมใช้งาน ได้แก่ สหรัฐอเมริกาฝั่งตะวันออก (โอไฮโอ), เอเชียแปซิฟิก (มุมไบ) และเอเชียแปซิฟิก (โตเกียว) API สามารถเข้าถึงได้ผ่าน AWS CLI, SDK หรือการเรียกใช้ API สำหรับข้อมูลเพิ่มเติม โปรดดูเอกสารของ Amazon SageMaker HyperPod สำหรับBatchRebootClusterNodes และ BatchReplaceClusterNodes