การประกาศเปิดตัว Training Operator ของ Amazon SageMaker HyperPod
วันนี้ เราขอประกาศเปิดตัวความพร้อมใช้งานทั่วไปของ Training Operator ของ Amazon SageMaker HyperPod ซึ่งเป็นส่วนขยาย Kubernetes ที่สร้างขึ้นเฉพาะสำหรับการฝึกโมเดลพื้นฐานบน HyperPod อย่างมีความยืดหยุ่น
Amazon SageMaker HyperPod ช่วยให้ลูกค้าสามารถเร่งการพัฒนาโมเดล AI โดยใช้ GPU หลายร้อยหรือหลายพันตัวที่มาพร้อมกับความยืดหยุ่นในตัว ซึ่งช่วยลดระยะเวลาในการฝึกโมเดลลงได้สูงสุดถึง 40% เมื่อคลัสเตอร์สำหรับการฝึกโมเดลขยายตัวมากขึ้น การกู้คืนจากการหยุดชะงักในการฝึกโมเดลจะส่งผลกระทบมากขึ้นตามไปด้วย การกู้คืนจากความล้มเหลวในอดีตมักต้องเริ่มงานใหม่ทั้งหมดในทุกโหนด เมื่อมีเพียงกระบวนการฝึกเดียวล้มเหลว ก็ส่งผลให้เกิดเวลาหยุดทำงานเพิ่มขึ้นและค่าใช้จ่ายที่สูงขึ้นตามไปด้วย อีกทั้ง การระบุและแก้ไขปัญหาที่สำคัญในการฝึก เช่น การที่ GPU หยุดทำงาน อัตราการโอนถ่ายข้อมูลในการฝึกต่ำ และความไม่เสถียรทางตัวเลข ซึ่งโดยทั่วไปแล้ว ต้องใช้โค้ดการติดตามตรวจสอบแบบกำหนดเองที่ซับซ้อน ซึ่งส่งผลให้ระยะเวลาการพัฒนายืดเยื้อและทำให้การนำสินค้าเข้าสู่ตลาดล่าช้าออกไปอีก
ด้วย HyperPod Training Operator ลูกค้าสามารถเพิ่มความยืดหยุ่นในการฝึกสำหรับเวิร์กโหลดของ Kubernetes ได้มากขึ้นอีกด้วย แทนที่จะต้องเริ่มงานใหม่ทั้งหมดเมื่อเกิดความล้มเหลว HyperPod Training Operator จะทำการกู้คืนแบบเฉพาะจุด โดยเลือกเริ่มใหม่เฉพาะทรัพยากรฝึกที่ได้รับผลกระทบเท่านั้น เพื่อให้กู้คืนจากความผิดพลาดได้รวดเร็วขึ้น นอกจากนี้ยังเพิ่มความสามารถในการตรวจสอบงานที่ค้างคาได้ตามต้องการ เพื่อช่วยจัดการกับสถานการณ์ฝึกที่มีปัญหา เช่น การหยุดชะงักของชุดข้อมูลการฝึก, ค่าความสูญเสียที่ไม่ใช่ตัวเลข และการเสื่อมประสิทธิภาพผ่านการกำหนดค่าที่ง่ายในรูปแบบ YAML เริ่มต้นได้ง่าย ๆ เพียงดำเนินการดังต่อไปนี้ สร้างคลัสเตอร์ HyperPod, ติดตั้งส่วนเสริม Training Operator, กำหนดนโยบายการกู้คืนแบบกำหนดเองสำหรับงานที่ค้างคา แล้วเริ่มต้นการฝึกโมเดลได้ทันที
การเปิดตัวนี้พร้อมให้ใช้งานทั่วไปใน AWS Region ทุกแห่งที่รองรับ SageMaker HyperPod ในปัจจุบันแล้ว
โปรดดูเอกสารประกอบเพื่อเรียนรู้เพิ่มเติม