การสนับสนุน Amazon EKS ใน Amazon SageMaker HyperPod เพื่อปรับขนาดการพัฒนาโมเดลพื้นฐาน
เรามีความตื่นเต้นที่จะประกาศความพร้อมใช้งานทั่วไปของการสนับสนุน Amazon EKS ใน SageMaker HyperPod ซึ่งทำให้ลูกค้าสามารถเรียกใช้และจัดการเวิร์กโหลด Kubernetes ของตนบน SageMaker HyperPod ซึ่งเป็นโครงสร้างพื้นฐานที่สร้างตามวัตถุประสงค์สำหรับการพัฒนาโมเดลพื้นฐาน (FM) ซึ่งจะลดเวลาในการฝึกโมเดลได้สูงสุดถึง 40%
ลูกค้าจำนวนมากใช้ Kubernetes เพื่อจัดการเวิร์กโฟลว์ ML เนื่องจากความสามารถในการเคลื่อนย้าย ความสามารถในการปรับขนาด และระบบนิเวศของเครื่องมือที่หลากหลาย ลูกค้าเหล่านี้ต้องการใช้อินเทอร์เฟซที่คุ้นเคยของ Kubernetes ต่อไป แต่ก็ยังคงต้องการวิธีอัตโนมัติในการจัดการความล้มเหลวของฮาร์ดแวร์ด้วย การสนับสนุน EKS ใน HyperPod ผสมผสานข้อดีของ SageMaker HyperPod ที่นำเสนอคลัสเตอร์ที่มีประสิทธิภาพในการซ่อมแซมตนเองเข้ากับความสามารถในการใส่คอนเทนเนอร์ของ Amazon EKS ซึ่งเป็นบริการ Kubernetes ที่มีการจัดการ ด้วยการเปิดตัวครั้งนี้ ลูกค้าสามารถดำเนินการตรวจสอบสถานะประสิทธิภาพเชิงลึกระหว่างการสร้างคลัสเตอร์เพื่อลดความล้มเหลวในระหว่างการฝึกได้ นอกจากนี้ HyperPod จะแทนที่โหนดที่ผิดพลาดโดยอัตโนมัติและกลับมาฝึกต่อจากจุดตรวจสอบล่าสุดของคุณทั้งบน AWS Trainium และ Nvidia GPU ในระดับตัวเร่งมากกว่าพันตัว ลูกค้ามีความยืดหยุ่นในการใช้ HyperPod CLI ใหม่หรือเครื่องมือที่ตนต้องการเพื่อส่ง จัดการ และตรวจติดตามเวิร์กโหลด สภาพแวดล้อมคลัสเตอร์ที่คงถาวรจะให้การเข้าถึง SSM และความสามารถในการปรับแต่งคลัสเตอร์ นอกจากนั้น คลัสเตอร์ HyperPod ที่จัดการโดย EKS ยังผสานรวมการทำงานกับข้อมูลเชิงลึกของ CloudWatch Container เพื่อมอบข้อมูลการสังเกตที่พร้อมนำไปใช้ได้ทันทีด้วยการค้นหาสถานะประสิทธิภาพของโหนด HyperPod โดยอัตโนมัติและแสดงภาพในแดชบอร์ดที่จัดเตรียมให้
รุ่นนี้พร้อมให้ใช้งานโดยทั่วไปใน AWS Region ที่มี SageMaker HyperPod ให้บริการ ยกเว้นยุโรป (ลอนดอน)
หากต้องการเรียนรู้เพิ่มเติม โปรดดูรายการทรัพยากรต่อไปนี้ ได้แก่ หน้าเว็บ, บล็อกข่าว AWS, เอกสารประกอบ, คลัง Github