ตอนนี้ Amazon SageMaker HyperPod มีข้อมูลการสังเกตที่ครอบคลุมสำหรับกลุ่มอินสแตนซ์แบบจำกัดแล้ว
ขณะนี้ Amazon SageMaker HyperPod มีข้อมูลการสังเกตที่ครอบคลุมสำหรับกลุ่มอินสแตนซ์แบบจำกัด (RIG) แล้ว ซึ่งช่วยให้ทีมที่ฝึกโมเดลพื้นฐานด้วย Nova Forge สามารถมองเห็นทรัพยากรการประมวลผลและเวิร์กโหลดการฝึกของตนได้อย่างลึกซึ้ง ความสามารถใหม่นี้ช่วยลดความยุ่งยากในการเก็บรวบรวมและเชื่อมโยงเมตริกต่าง ๆ ทั่วทั้งสแต็กโครงสร้างพื้นฐานด้วยตนเอง โดยมอบมุมมองแบบครบวงจรของประสิทธิภาพ GPU, สถานะระบบ, อัตราการโอนถ่ายข้อมูลเครือข่าย และสถานะคลัสเตอร์ Kubernetes ผ่านแดชบอร์ด Amazon Managed Grafana ที่กำหนดค่าไว้ล่วงหน้าและใช้ข้อมูลสนับสนุนจาก Amazon Managed Service สำหรับ Prometheus
ขณะนี้คุณสามารถตรวจติดตามการใช้งาน GPU, แบนวิดท์ NVLink, ความกดดันของ CPU, การใช้งาน FSx สำหรับ Lustre และวงจรชีวิตของพ็อด ได้จากแดชบอร์ด Grafana เดียว โดยมีการรวบรวมเมตริกจากตัวส่งออกข้อมูลสี่ตัว ซึ่งครอบคลุมประสิทธิภาพ GPU, สถานะระบบระดับโฮสต์, ผืนผ้าเครือข่าย และสถานะของออบเจ็กต์ Kubernetes นอกจากนี้ ข้อมูลบันทึกที่คัดสรรมาแล้วจะพร้อมใช้งานในแดชบอร์ดเหล่านี้โดยอัตโนมัติ ซึ่งครอบคลุมความคืบหน้าของ Epoch, ข้อมูลบันทึกการฝึกระดับขั้นตอน, ข้อผิดพลาดของไปป์ไลน์ และการติดตามย้อนกลับ Python เพื่อให้คุณสามารถวินิจฉัยความล้มเหลวในการฝึกได้อย่างรวดเร็ว ข้อมูลการสังเกต HyperPod สำหรับกลุ่มอินสแตนซ์แบบจำกัด จะเปิดใช้งานโดยอัตโนมัติเมื่อคุณสร้างคลัสเตอร์ใหม่โดยใช้ RIG หรือสามารถเปิดใช้งานสำหรับคลัสเตอร์ที่มีอยู่แล้วได้เพียงไม่กี่คลิกในคอนโซลการจัดการคลัสเตอร์ HyperPod
ข้อมูลการสังเกตของ Amazon SageMaker HyperPod RIG พร้อมใช้งานใน AWS Region ทุกแห่งที่รองรับ Amazon SageMaker HyperPod RIG หากต้องการเรียนรู้เพิ่มเติม โปรดไปที่เอกสารประกอบ