แนะนำการตรวจสอบติดตามสถานะ GPU และการซ่อมแซมอัตโนมัติสำหรับอินสแตนซ์ที่มีการจัดการของ Amazon ECS
ขณะนี้ Amazon Elastic Container Service (Amazon ECS) นำเสนอการตรวจติดตามสถานะของ NVIDIA GPU และฟังกชันหน้าที่ในการซ่อมแซมอัตโนมัติสำหรับอินสแตนซ์ที่มีการจัดการของ Amazon ECS ความสามารถใหม่นี้จะตรวจจับความล้มเหลวของฮาร์ดแวร์ NVIDIA GPU ที่สำคัญโดยอัตโนมัติและแทนที่อินสแตนซ์ที่บกพร่อง ช่วยให้ลูกค้าปรับปรุงความพร้อมใช้งานและความเสถียรของเวิร์กโหลดคอนเทนเนอร์แบบเร่ง GPU
การเรียกใช้เวิร์กโหลดแบบเร่ง GPU เช่น การอนุมานของ GenAI ต้องใช้การจัดการฮาร์ดแวร์เฉพาะเพื่อลดความล้มเหลวและลดการหยุดชะงัก ขณะนี้อินสแตนซ์ที่มีการจัดการของ Amazon ECS จะตรวจติดตามสภาพของ GPU อย่างต่อเนื่องโดยใช้ NVIDIA Data Center GPU Manager (DCGM) และแทนที่ความจุบกพร่องในเชิงรุกเมื่อเกิดความล้มเหลวที่สำคัญเกิดขึ้น คุณสามารถตรวจติดตามสถานะของ GPU ผ่าน DescribeContainerInstances API และรับการแจ้งเตือนผ่าน Amazon EventBridge เมื่ออินสแตนซ์บกพร่อง สำหรับเวิร์กโหลดที่คุณต้องการจัดการวงจรชีวิตอินสแตนซ์ด้วยตนเอง คุณสามารถยกเลิกการซ่อมแซมอัตโนมัติในระดับผู้ให้บริการความจุและจัดการเหตุการณ์ข้อผิดพลาดของ GPU ด้วยตรรกะการแก้ไขของคุณเอง
การซ่อมแซมอัตโนมัติของสถานะ GPU จะเปิดใช้งานโดยค่าเริ่มต้นในอินสแตนซ์ที่มีการจัดการของ Amazon ECS ทั้งหมดที่เรียกใช้บนประเภทอินสแตนซ์ NVIDIA GPU ที่รองรับโดยไม่มีค่าใช้จ่ายเพิ่มเติม ความสามารถนี้พร้อมใช้งานแล้วในรีเจี้บนเชิงพาณิชย์ทุกแห่งของ AWS หากต้องการเรียนรู้เพิ่มเติม โปรดไปที่คู่มือนักพัฒนา Amazon ECS