ขณะนี้ Amazon SageMaker HyperPod รองรับการดำเนินการกับโหนดจากคอนโซล
Amazon SageMaker HyperPod ช่วยให้คุณสามารถจัดการโหนดคลัสเตอร์แต่ละโหนดได้โดยตรงจากคอนโซล AWS ผู้ปฏิบัติงานกับคลัสเตอร์ HyperPod ที่จัดการเวิร์กโหลด AI/ML ขนาดใหญ่มักจำเป็นต้องเชื่อมต่อกับโหนดเพื่อการแก้ไขปัญหา รีบูตอินสแตนซ์ที่ไม่ตอบสนอง หรือแทนที่โหนดที่เสื่อมสภาพ การเชื่อมต่อกับโหนดก่อนหน้านี้จำเป็นต้องสร้างสตริงการเชื่อมต่อ SSM ด้วยตนเอง ในขณะที่การดำเนินการกู้คืนโหนด เช่น การรีบูตและแทนที่คำสั่ง CLI ที่จำเป็น ขณะนี้คอนโซลมีอินเทอร์เฟซเดียวสำหรับการดำเนินการเกี่ยวกับโหนดทั้งหมด
ด้วยการดำเนินการกับโหนดในคอนโซล ทำให้ตอนนี้คุณสามารถเชื่อมต่อกับโหนดใดก็ได้ผ่าน AWS Systems Manager (SSM) คอนโซลมีคำสั่ง SSM CLI ที่เติมข้อมูลไว้ล่วงหน้า พร้อมรองรับการคัดลอกไปยังคลิปบอร์ดและการเปิดเซสชัน SSM โดยตรงในคอนโซล แม้คลัสเตอร์ SageMaker HyperPod รองรับการทดแทนและรีบูตอินสแตนซ์ที่มีสภาพไม่สมบูรณ์โดยอัตโนมัติแล้ว แต่ก็มีสถานการณ์บางอย่าง เช่น หน่วยความจำมากเกินไปหรือการเสื่อมสภาพของฮาร์ดแวร์ที่ไม่สามารถตรวจพบได้ ซึ่งอาจต้องมีการแทรกแซงด้วยตนเอง ตอนนี้ การดำเนินการกับโหนดในคอนโซลให้วิธีการที่สอดคล้องกันในการรีบูตโหนดด้วยตนเอง เพื่อฟื้นตัวจากปัญหาชั่วคราว ลบโหนดที่มีสภาพไม่สมบูรณ์ และแทนที่โหนดด้วยการดำเนินการแบบแบทช์ที่รองรับการกระทำในหลายๆ โหนดพร้อมกัน ทำให้คุณสามารถแก้ไขปัญหาของโหนดได้ในไม่กี่นาที ความสามารถนี้มีประโยชน์อย่างยิ่งเมื่อทำการฝึกอบรม AI อย่างเร่งด่วน และเวิร์กโหลดการอนุมานซึ่งการลดเวลาหยุดทำงานเป็นสิ่งสำคัญ
ฟีเจอร์นี้พร้อมใช้งานใน AWS Region ทุกแห่งที่รองรับ Amazon SageMaker HyperPod คุณสามารถดำเนินการกับโหนดเหล่านี้ทั้งหมดได้ในหน้าการจัดการคลัสเตอร์ HyperPod บนคอนโซล คลิกตรงลิงก์ที่เกี่ยวข้องเพื่อเรียนรู้เพิ่มเติมเกี่ยวกับการทดแทน/การรีบูต และการเชื่อมต่อกับโหนด