ตอนนี้ Amazon SageMaker HyperPod รองรับการฝึกแบบไม่ใช้เช็กพอยต์แล้ว
ตอนนี้ Amazon SageMaker HyperPod รองรับการฝึกแบบไม่ใช้เช็กพอยต์แล้ว ซึ่งเป็นความสามารถใหม่สำหรับการฝึกโมเดลพื้นฐาน ที่ไม่จำเป็นต้องรีสตาร์ทในระดับงานตามเช็กพอยต์ เพื่อกู้คืนเมื่อเกิดความผิดพลาด การฝึกแบบไม่ใช้เช็กพอยต์ช่วยรักษาความต่อเนื่องของการฝึกเดินหน้าได้ แม้จะเกิดความล้มเหลวพร้อมลดเวลาในการกู้คืนจากหลายชั่วโมงเหลือเพียงไม่กี่นาที จึงถือเป็นการเปลี่ยนแปลงเชิงพื้นฐานจากแนวทางกู้คืนแบบใช้เช็กพอยต์ตามเดิม ซึ่งเมื่อเกิดความผิดพลาด ก็จะจำเป็นจะต้องหยุดคลัสเตอร์ฝึกทั้งหมด วินิจฉัยปัญหาแบบแมนวล และกู้คืนจากเช็กพอยต์ที่บันทึกไว้ ซึ่งเป็นกระบวนการที่ทำให้ตัวเร่งการประมวลผล AI ราคาสูงต้องหยุดทำงานหลายชั่วโมง และส่งผลให้ทรัพยากรการประมวลผลขององค์กรสูญเปล่า
การฝึกแบบไม่ใช้เช็กพอยต์เข้ามาพลิกกรอบวิธีทำงานเดิม ๆ ได้อย่างสิ้นเชิง ด้วยการคงสถานะการฝึกโมเดลไว้ทั่วทั้งคลัสเตอร์แบบกระจาย พร้อมสลับเปลี่ยนโหนดฝึกที่ขัดข้องโดยอัตโนมัติทันที และใช้การถ่ายโอนสถานะแบบ Peer-to-Peer จากตัวเร่งที่ทำงานปกติ เพื่อกู้คืนเมื่อเกิดความล้มเหลว ด้วยการลดการใช้เช็กพอยต์ในช่วงกู้คืน การฝึกแบบไม่ใช้เช็กพอยต์จะช่วยให้องค์กรของคุณประหยัดต้นทุนจากตัวเร่ง AI ที่ไม่ได้ใช้งานและย่นระยะเวลาในการกลับมาดำเนินการต่อ แม้ในขนาดที่ใหญ่ขึ้น การฝึกแบบไม่ใช้เช็กพอยต์บน Amazon SageMaker HyperPod สามารถทำให้ประสิทธิภาพในการฝึกบนคลัสเตอร์ขนาดต่าง ๆ ที่มีตัวเร่ง AI จำนวนหลายพันตัวสูงขึ้นกว่า 95%
การฝึกแบบไม่ใช้เช็กพอยต์บน SageMaker HyperPod พร้อมให้บริการใน AWS Region ทุกแห่งที่มี Amazon SageMaker HyperPod ให้บริการในขณะนี้ คุณสามารถเปิดใช้งานการฝึกแบบไม่ใช้เช็กพอยต์ได้ โดยไม่ต้องแก้ไขโค้ดใด ๆ ผ่านสูตร HyperPod สำหรับโมเดลสาธารณะยอดนิยมที่มี เช่น Llama และ GPT OSS สำหรับสถาปัตยกรรมโมเดลที่ปรับแต่งเอง คุณสามารถผสานองค์ประกอบการฝึกแบบไม่ใช้เช็กพอยต์เข้ากับเวิร์กโฟลว์ที่ใช้ PyTorch ได้โดยปรับแก้เพียงเล็กน้อย ทำให้ทีมของคุณเข้าถึงได้ ไม่ว่าจะมีความเชี่ยวชาญด้านการฝึกแบบกระจาย มากน้อยเพียงใด
หากต้องการเริ่มต้นใช้งาน โปรดไปที่หน้าผลิตภัณฑ์ Amazon SageMaker HyperPod และดูหน้า GitHub ของการฝึกแบบไม่ใช้เช็กพอยต์เพื่อดูคำแนะนำการใช้งาน