Container Insights ประกาศข้อมูลการสังเกตสถานะประสิทธิภาพของโหนด SageMaker HyperPod บน EKS แล้ว

โพสต์บน: 10 ก.ย. 2024

ตอนนี้ Amazon CloudWatch Container Insights จะค้นหาสถานะประสิทธิภาพของโหนด SageMaker HyperPod ที่ทำงานบน EKS โดยอัตโนมัติ และแสดงภาพในแดชบอร์ดที่จัดเตรียมให้ เพื่อช่วยคุณตรวจติดตามความพร้อมใช้งานของโหนดคุณเพื่อความเป็นเลิศด้านการปฏิบัติงาน เมื่อใช้แดชบอร์ดที่ใช้งานได้ทันที คุณสามารถระบุโหนดที่สถานะไม่สมบูรณ์ได้อย่างง่ายดายและบรรเทาผลกระทบได้อย่างรวดเร็วเพื่อให้ได้ระยะเวลาการฝึกที่มีประสิทธิภาพ

Container Insights ทำงานร่วมกับ SageMaker เพื่อรวบรวมผลทดสอบของการตรวจสอบสถานะประสิทธิภาพเชิงลึกสำหรับโหนด HyperPod และแสดงในแดชบอร์ดที่กำหนดไว้ล่วงหน้า เพื่อช่วยให้คุณเข้าใจสถานะและประสิทธิภาพการทำงานของโหนดคุณ และระบุว่าโหนดพร้อมสำหรับการจัดกำหนดการหรือไม่ Container Insights ช่วยเหลือคุณในการเพิ่มประสิทธิภาพระยะเวลาการฝึก โดยการจำแนกโหนดที่ล้มเหลวเป็น “รอการรีบูต” และ “รอการเปลี่ยน” และแนะนำคุณในการบำรุงรักษาสถานะประสิทธิภาพของโหนดในกรณีที่ปิดใช้งานการเปลี่ยนโหนดอัตโนมัติ หากเปิดใช้งานการกู้คืนอัตโนมัติ คุณจะสามารถดูการเปลี่ยนแปลงของโหนดคุณ ความล่าช้าของงานการฝึก และทำความเข้าใจว่างานของคุณดำเนินต่อไปอย่างไรตั้งแต่จุดตรวจสอบครั้งล่าสุด

การเริ่มต้นใช้งาน Container Insights เป็นเรื่องง่าย คุณสามารถเริ่มต้นใช้งานได้โดยการติดตั้งส่วนเสริม EKS ชื่อ CloudWatch Observability หรือเอเจนต์ของ CloudWatch ล่าสุดลงในคลัสเตอร์ของคุณ หรือโดยการอัปเกรดแผนผัง Helm ของคุณด้วยเอเจนต์ของ CloudWatch เวอร์ชันล่าสุด เมื่อกำหนดค่าแล้ว คุณสามารถไปยังคอนโซล Container Insights และดูสถานะประสิทธิภาพของโหนด SageMaker Hyperpod ของคุณได้ในทันที

ตอนนี้ ข้อมูลการสังเกตสถานะประสิทธิภาพของโหนด SageMaker HyperPod พร้อมใช้งานแล้วใน Container Insights สำหรับ EKS ในรีเจี้ยนเชิงพาณิชย์ทั้งหมดที่มี SageMaker HyperPod เมตริกสถานะประสิทธิภาพของโหนด HyperPod เป็นไปตามค่าบริการตามการสังเกต โปรดดูที่หน้าค่าบริการ Container Insights เพื่อดูรายละเอียด สำหรับข้อมูลเพิ่มเติม โปรดดูคู่มือผู้ใช้ Container Insights