ฟีเจอร์ของ Amazon SageMaker HyperPod
ปรับขนาดและเร่งการพัฒนาโมเดล AI ช่วยสร้างผ่านตัวเร่งความเร็ว AI หลายพันตัว
การกำกับดูแลงาน
Amazon SageMaker HyperPod มอบการมองเห็นและการควบคุมเต็มรูปแบบในการจัดสรรทรัพยากรการประมวลผลในงานการพัฒนาโมเดล AI ช่วยสร้าง เช่น การฝึกและการอนุมาน SageMaker HyperPod จัดการคิวงานโดยอัตโนมัติ ช่วยให้มั่นใจว่างานที่สำคัญที่สุดจะได้รับความสำคัญสูงสุด ในขณะเดียวกันก็ใช้ทรัพยากรการประมวลผลอย่างมีประสิทธิภาพมากขึ้นเพื่อลดต้นทุนการพัฒนาโมเดล ในขั้นตอนสั้น ๆ ไม่กี่ขั้นตอน ผู้ดูแลระบบสามารถกำหนดลำดับความสำคัญสำหรับงานต่าง ๆ และตั้งค่าขีดจำกัดเกี่ยวกับจำนวนทรัพยากรการประมวลผลที่แต่ละทีมหรือโครงการสามารถใช้ได้ จากนั้น นักวิทยาศาสตร์ข้อมูลและนักพัฒนาจะสร้างงาน (เช่น การฝึก การปรับแต่งโมเดลเฉพาะ หรือการคาดการณ์บนโมเดลที่ได้รับการฝึก) ที่ SageMaker HyperPod รันโดยอัตโนมัติ โดยยึดตามขีดจำกัดทรัพยากรการประมวลผลและลำดับความสำคัญที่ผู้ดูแลระบบกำหนดไว้ เมื่อต้องดำเนินการงานที่มีความสำคัญสูงให้เสร็จสิ้นทันที แต่ทรัพยากรการประมวลผลทั้งหมดถูกใช้งานอยู่ SageMaker HyperPod จะทำการเคลียร์ทรัพยากรการประมวลผลจากงานที่มีความสำคัญต่ำกว่าโดยอัตโนมัติ นอกจากนี้ SageMaker HyperPod จะใช้ทรัพยากรการประมวลผลที่ไม่ได้ใช้งานโดยอัตโนมัติเพื่อเร่งงานที่กำลังรออยู่ SageMaker HyperPod มอบแดชบอร์ดที่ผู้ดูแลระบบสามารถติดตามตรวจสอบและตรวจสอบงานที่กำลังทำงานหรือกำลังรอทรัพยากรการประมวลผล
แผนฝึกที่ยืดหยุ่น
เพื่อให้ตรงตามกำหนดเวลาและงบประมาณการฝึกของคุณ SageMaker HyperPod จะช่วยให้คุณสร้างแผนการฝึกที่คุ้มต้นทุนมากที่สุดซึ่งใช้ทรัพยากรการประมวลผลจากบล็อกความสามารถในการประมวลผลหลายบล็อก เมื่อคุณอนุมัติแผนการฝึก SageMaker HyperPod จะจัดเตรียมโครงสร้างพื้นฐานโดยอัตโนมัติและรันงานการฝึกบนทรัพยากรการประมวลผลเหล่านี้โดยไม่ต้องมีการดำเนินการด้วยตนเองใด ๆ คุณประหยัดเวลาหลายสัปดาห์ในการจัดการกระบวนการฝึกเพื่อให้งานสอดคล้องกับความพร้อมใช้งานของการประมวลผล
สูตรที่ปรับให้เหมาะสม
สูตร SageMaker HyperPod ช่วยให้นักวิทยาศาสตร์ข้อมูลและนักพัฒนาที่มีทักษะทุกระดับได้รับประโยชน์จากประสิทธิภาพระดับสูง พร้อมทั้งเริ่มต้นการฝึกและปรับแต่งโมเดล AI ช่วยสร้างที่พร้อมใช้งานสาธารณะได้อย่างรวดเร็ว รวมถึง Llama 3.1 405B, Mixtral 8x22B และ Mistral 7B แต่ละสูตรประกอบด้วยสแต็กการฝึกที่ได้รับการทดสอบโดย AWS แล้ว ซึ่งช่วยลดเวลาอันยาวนานหลายสัปดาห์ในการทดสอบการกำหนดค่าโมเดลต่าง ๆ คุณสามารถสลับไปมาระหว่างอินสแตนซ์ที่ใช้ GPU กับอินสแตนซ์ที่ใช้ AWS Trainium ได้ด้วยการเปลี่ยนสูตรเพียงบรรทัดเดียว เปิดใช้การตรวจสอบจุดตรวจสอบโมเดลอัตโนมัติเพื่อความยืดหยุ่นในการฝึกที่ดีขึ้น และรันเวิร์กโหลดในการผลิตบน SageMaker HyperPod
การฝึกแบบกระจายที่มีประสิทธิภาพสูง
SageMaker HyperPod ช่วยเร่งการฝึกแบบกระจายรวดเร็วยิ่งขึ้นด้วยการแบ่งโมเดลและชุดข้อมูลการฝึกของคุณระหว่างตัวเร่งความเร็ว AWS โดยอัตโนมัติ ช่วยให้คุณเพิ่มประสิทธิภาพงานการฝึกสำหรับโครงสร้างพื้นฐานเครือข่าย AWS และโทโพโลยีคลัสเตอร์ และปรับปรุงจุดตรวจสอบโมเดลด้วยการเพิ่มประสิทธิภาพความถี่ในการบันทึกจุดตรวจสอบ ช่วยให้มั่นใจได้ว่ามีค่าใช้จ่ายเบื้องต้นน้อยที่สุดระหว่างการฝึก
เครื่องมือการทดลองและข้อมูลการสังเกตขั้นสูง
คุณสามารถใช้เครื่องมือ AI แบบในตัวใน SageMaker HyperPod เพื่อปรับปรุงประสิทธิภาพของโมเดลได้ ตัวอย่างเช่น TensorBoard ที่มีการจัดการใน SageMaker ช่วยให้คุณประหยัดเวลาในการพัฒนาโดยการแสดงภาพสถาปัตยกรรมโมเดลเพื่อระบุและแก้ไขปัญหาการบรรจบกัน การผสานการทำงานกับ Amazon CloudWatch Container Insights ให้ข้อมูลเชิงลึกยิ่งขึ้นเกี่ยวกับประสิทธิภาพ สถานะ และการใช้คลัสเตอร์ MLFlow ที่มีการจัดการใน SageMaker ช่วยให้คุณจัดการการทดลองได้อย่างมีประสิทธิภาพ
การกำหนดเวลาเวิร์กโหลดและการควบคุมระบบ
อินเทอร์เฟซผู้ใช้ SageMaker HyperPod สามารถปรับแต่งได้หลากหลายโดยใช้ Slurm หรือ Amazon Elastic Kubernetes Service (Amazon EKS) คุณสามารถเลือกและติดตั้งกรอบงานหรือเครื่องมือที่จำเป็นได้ คลัสเตอร์ทั้งหมดจะถูกจัดเตรียมไว้ด้วยประเภทอินสแตนซ์และจำนวนที่คุณเลือก และจะเก็บไว้สำหรับการใช้งานของคุณตลอดทั้งเวิร์กโหลด ด้วยการรองรับ Amazon EKS ใน SageMaker HyperPod คุณจึงสามารถจัดการและดำเนินการคลัสเตอร์ที่มีประสบการณ์ผู้ดูแลระบบที่ใช้ Kubernetes ที่สอดคล้องกันได้ เรียกใช้และปรับขนาดเวิร์กโหลดได้อย่างมีประสิทธิภาพ ตั้งแต่การฝึกไปจนถึงการปรับแต่งเพื่ออนุมาน นอกจากนี้ คุณยังสามารถแชร์ความสามารถในการประมวลผลและสลับใช้งานระหว่าง Slurm และ Amazon EKS สำหรับเวิร์กโหลดประเภทต่าง ๆ ได้อย่างง่ายดายอีกด้วย
การตรวจสอบสถานะประสิทธิภาพและซ่อมแซมสภาพคลัสเตอร์อัตโนมัติ
หากมีอินสแตนซ์ใด ๆ เกิดข้อบกพร่องในระหว่างเวิร์กโหลดการพัฒนาโมเดล SageMaker HyperPod จะตรวจจับและแก้ไขปัญหาโครงสร้างพื้นฐานโดยอัตโนมัติ เพื่อตรวจจับฮาร์ดแวร์ที่ผิดพลาด SageMaker HyperPod จะดำเนินการตรวจสอบสถานะประสิทธิภาพอย่างสม่ำเสมอสำหรับความสมบูรณ์ของตัวเร่งความเร็วและความสมบูรณ์ของเครือข่าย