การประกาศเปิดตัวการเก็บบันทึกสถานะโมเดล (Checkpoints) ตามระดับชั้นที่มีการจัดการสำหรับ Amazon SageMaker HyperPod
วันนี้ Amazon Web Service (AWS) ประกาศความพร้อมใช้งานทั่วไปของการเก็บบันทึกสถานะโมเดล (Checkpoints) ตามระดับชั้นที่มีการจัดการสำหรับ Amazon SageMaker HyperPod ซึ่งเป็นความสามารถใหม่ที่ออกแบบมาเพื่อลดเวลาในการกู้คืนโมเดล และลดการสูญเสียความคืบหน้าในการฝึกอบรม เมื่อการฝึก AI ขยายตัวเพิ่มขึ้น ยิ่งทำให้โครงสร้างพื้นฐานมีโอกาสล้มเหลวมากยิ่งขึ้น การเก็บบันทึกสถานะโมเดลที่มีประสิทธิภาพจึงมีความสำคัญ วิธีการเก็บบันทึกสถานะโมเดลแบบเดิมอาจช้า และต้องใช้ทรัพยากรมาก โดยเฉพาะสำหรับโมเดลขนาดใหญ่ การเก็บบันทึกสถานะโมเดล (Checkpoints) ตามระดับชั้นที่มีการจัดการสำหรับ SageMaker HyperPod จะแก้ไขปัญหาเหล่านี้โดยการใช้หน่วยความจำ CPU บันทึกจุดตรวจสอบเป็นประจำ เพื่อการกู้คืนอย่างรวดเร็ว โดยยังคงเก็บข้อมูลไปยัง Amazon S3 เป็นระยะๆ เพื่อความทนทานในระยะยาว วิธีการแบบไฮบริดนี้ช่วยลดการสูญเสียการฝึก และลดเวลาในการกลับสู่การฝึกหลังเกิดความล้มเหลวได้เป็นอย่างมาก
เมื่อมีการเก็บบันทึกสถานะโมเดล (Checkpoints) ตามระดับชั้นที่มีการจัดการ องค์กรสามารถดำเนินการฝึกได้อย่างน่าเชื่อถือด้วยอัตราการโอนถ่ายข้อมูลสูงในคลัสเตอร์ขนาดใหญ่ โซลูชันนี้ช่วยให้ลูกค้ากำหนดค่าความถี่ของการเก็บบันทึกสถานะโมเดล และนโยบายการเก็บรักษาได้ทั้งในหน่วยความจำและระดับชั้นของพื้นที่จัดเก็บข้อมูลที่ใช้งานอย่างต่อเนื่อง การจัดเก็บในหน่วยความจำบ่อยๆ ทำให้ลูกค้าสามารถกู้คืนได้อย่างรวดเร็ว ทั้งยังสามารถลดค่าใช้จ่ายในการจัดเก็บได้อีกด้วย การรวมเข้ากับการเก็บบันทึกสถานะโมเดลแบบกระจาย (DCP) ของ PyTorch ทำให้ลูกค้าสามารถปรับใช้การเก็บบันทึกสถานะโมเดลได้อย่างง่ายดายด้วยโค้ดเพียงไม่กี่บรรทัด ทั้งยังได้รับประโยชน์ด้านประสิทธิภาพของการจัดเก็บข้อมูลในหน่วยความจำด้วย
ปัจจุบันฟีเจอร์นี้มีให้บริการในคลัสเตอร์ SageMaker HyperPod ที่ใช้เครื่องมือควบคุมระบบ EKS ลูกค้าสามารถเปิดใช้งานการเก็บบันทึกสถานะโมเดล (Checkpoints) ตามระดับชั้นที่มีการจัดการได้โดยการระบุพารามิเตอร์ API เมื่อสร้างหรืออัปเดตคลัสเตอร์ HyperPod ผ่าน API CreateCluster หรือ UpdateCluster จากนั้นลูกค้าสามารถใช้ไลบรารี python sagemaker-checkpointing เพื่อใช้การเก็บบันทึกสถานะโมเดล (Checkpoints) ตามระดับชั้นที่มีการจัดการโดยเปลี่ยนแปลงโค้ดในสคริปต์การฝึกเพียงเล็กน้อยเท่านั้น
การเก็บบันทึกสถานะโมเดล (Checkpoints) ตามระดับชั้นที่มีการจัดการมีให้บริการในทุกรีเจี้ยนที่มี SageMaker HyperPod ให้บริการในขณะนี้ โปรดดูข้อมูลเพิ่มเติมได้ที่บล็อกโพสต์และเอกสารประกอบของเรา