Amazon SageMaker HyperPod ประกาศการรองรับการใช้งานเอเจนต์ตรวจสอบประสิทธิภาพสำหรับคลัสเตอร์ Slurm
วันนี้ Amazon SageMaker HyperPod ประกาศความพร้อมใช้งานทั่วไปของเอเจนต์ตรวจสอบสถานะประสิทธิภาพสำหรับคลัสเตอร์ Slurm SageMaker HyperPod ช่วยให้คุณจัดเตรียมคลัสเตอร์ที่ยืดหยุ่นสำหรับเวิร์กโหลดของแมชชีนเลิร์นนิง (ML) และพัฒนาโมเดลที่ทันสมัย เช่น โมเดลภาษาขนาดใหญ่ (LLM) โมเดลการแพร่กระจาย และโมเดลพื้นฐาน (FM) เอเจนต์ตรวจสอบสถานะประสิทธิภาพจะทำการตรวจสอบสถานะประสิทธิภาพแบบพาสซีฟอยู่เบื้องหลังของอินสแตนซ์ เพื่อระบุปัญหาในด้านต่างๆ ที่สำคัญโดยไม่ส่งผลกระทบต่อลักษณะการทำงานหรือประสิทธิภาพของแอปพลิเคชัน แจ้งความล้มเหลวทันที และแทนที่อินสแตนซ์ที่มีสถานะประสิทธิภาพต่ำ เพื่อให้งานการฝึกของคุณดำเนินไปอย่างราบรื่น
เอเจนต์จะทำงานอย่างต่อเนื่องบนโหนดที่ใช้ GPU หรือ Trainium ทั้งหมดในคลัสเตอร์ HyperPod ของคุณ คอยเฝ้าระวังปัญหาฮาร์ดแวร์ เช่น GPU ที่ไม่ตอบสนอง หรือตัวนับข้อผิดพลาด NVLink เมื่อตรวจพบข้อผิดพลาด เอเจนต์จะทำเครื่องหมายโหนดว่าไม่มีประสิทธิภาพ และรีบูตโดยอัตโนมัติหรือแทนที่ด้วยโหนดที่มีประสิทธิภาพ ทำให้งานของคุณดำเนินต่อไปโดยไม่ต้องมีการแทรกแซงด้วยตนเอง เอเจนต์ยังปฏิบัติตามแนวทางที่สอดประสานกันในการจัดการความล้มเหลวด้วยฟังก์ชันการทำงานต่ออัตโนมัตที่สามารถใช้ได้กับคลัสเตอร์ Slurm ตัวอย่างเช่น งานที่มีเปิดใช้งานการทำงานต่ออัตโนมัติจะดำเนินการต่อจากจุดตรวจสอบที่บันทึกไว้ครั้งสุดท้ายเมื่อโหนดถูกแทนที่ด้วยเอเจนต์ การกู้คืนแบบไม่ต้องใช้มือ ซึ่งมีให้ใช้งานแล้วบนคลัสเตอร์ HyperPod ที่จัดการด้วย Amazon EKS ตอนนี้ยังมอบสภาพแวดล้อมที่ยืดหยุ่นแบบเดียวกันให้กับคลัสเตอร์ Slurm ช่วยให้ทีมสามารถฝึกโมเดลขนาดใหญ่เป็นเวลาหลายสัปดาห์โดยไม่หยุดชะงัก และสามารถประหยัดเวลาและค่าใช้จ่ายที่อาจสูญเสียไปจากความล้มเหลวกลางคัน นอกจากนี้ลูกค้ายังสามารถรีบูตโหนดได้โดยใช้คำสั่งง่ายๆ ในกรณีที่มีปัญหาเป็นระยะๆ เช่น ปัญหาไดรเวอร์ GPU ที่จำเป็นต้องรีเซ็ต
เอเจนต์ตรวจสอบประสิทธิภาพสำหรับ Slurm มีให้บริการในทุกภูมิภาคที่มี HyperPod ให้บริการ เอเจนต์ถูกเปิดใช้งานโดยอัตโนมัติในคลัสเตอร์ Slurm ที่เพิ่งสร้างขึ้นใหม่ทั้งหมด หากต้องการเปิดใช้งานในคลัสเตอร์ที่มีอยู่เดิม เพียงแค่อัปเกรดเป็น HyperPod AMI ล่าสุดโดยเรียกใช้ UpdateClusterSoftware API หากต้องการเรียนรู้เพิ่มเติม โปรดไปที่เอกสารประกอบ Amazon SageMaker HyperPod