Amazon SageMaker เปิดตัวการปรับขนาดอัตโนมัติที่เร็วขึ้นสำหรับโมเดล AI ช่วยสร้าง
เรามีความยินดีที่จะประกาศความสามารถใหม่ใน Amazon SageMaker Inference ที่ช่วยให้ลูกค้าลดเวลาที่โมเดล AI ช่วยสร้างใช้ในการปรับขนาดอัตโนมัติ ลูกค้าสามารถใช้เมตริกในระดับต่ำกว่าหนึ่งนาทีและลดเวลาแฝงโดยรวมในการปรับขนาดโมเดล AI ได้อย่างมาก เมื่อใช้ความสามารถนี้ ลูกค้าจะสามารถเพิ่มการตอบสนองของแอปพลิเคชัน AI ช่วยสร้างได้ เมื่อความต้องการเปลี่ยนแปลงไป
ความสามารถนี้ทำให้ลูกค้ามีเมตริก CloudWatch ที่มีความละเอียดสูงแบบใหม่สองรายการ ได้แก่ ConcurrentRequestsPerModel และ ConcurrentRequestsPerModelCopy ซึ่งช่วยให้การปรับขนาดอัตโนมัติเป็นไปอย่างรวดเร็วขึ้น เมตริกเหล่านี้จะถูกส่งออกมาทุกๆ 10 วินาที และแสดงข้อมูลโหลดบนตำแหน่งข้อมูลที่แม่นยำยิ่งขึ้นด้วยการติดตามการทำงานพร้อมกันที่เกิดขึ้นจริงหรือจำนวนคำขออนุมานที่โมเดลกำลังประมวลผลอยู่ในเวลานั้น ลูกค้าสามารถสร้างนโยบายการปรับขนาดอัตโนมัติโดยใช้เมตริกความละเอียดสูงเหล่านี้เพื่อปรับขนาดโมเดลที่ใช้จริงบนตำแหน่งข้อมูลของ SageMaker Amazon SageMaker จะเริ่มเพิ่มอินสแตนซ์ใหม่หรือสำเนาโมเดลภายในเวลาไม่ถึงหนึ่งนาที เมื่อถึงเกณฑ์ที่กำหนดไว้ในนโยบายการปรับขนาดอัตโนมัติเหล่านี้ วิธีนี้ช่วยให้ลูกค้าสามารถเพิ่มประสิทธิภาพการทำงานและประหยัดต้นทุนสำหรับเวิร์กโหลดการอนุมานบน SageMaker ได้
ความสามารถใหม่นี้สามารถเข้าถึงได้บนกลุ่มอินสแตนซ์เร่งความเร็ว (g4dn, g5, g6, p2, p3, p4d, p4de, p5, inf1, inf2, trn1n, trn1) ใน AWS Region ทั้งหมดที่มี Amazon SageMaker Inference ให้บริการ ยกเว้นรีเจี้ยนของจีนและ AWS GovCloud (สหรัฐฯ) หากต้องการเรียนรู้เพิ่มเติม โปรดดูบล็อก AWS ML และไปที่เอกสารประกอบของเรา