Amazon SageMaker แนะนำความสามารถใหม่เพื่อเร่งการปรับขนาดของการอนุมานด้วย AI ช่วยสร้าง

โพสต์บน: 6 ธ.ค. 2024

เรามีความตื่นเต้นที่จะประกาศความสามารถใหม่สองประการใน SageMaker Inference ที่จะยกระดับการนำไปใช้จริงและการปรับขนาดของโมเดล AI ช่วยสร้างอย่างมีนัยสำคัญ ได้แก่ Container Caching และ Fast Model Loader นวัตกรรมเหล่านี้จัดการกับความท้าทายที่สำคัญอย่างยิ่งในการปรับขนาดโมเดลภาษาขนาดใหญ่ (LLM) อย่างมีประสิทธิภาพ ทำให้เวลาตอบสนองต่อการรับส่งข้อมูลที่พุ่งสูงเร็วขึ้นและการปรับขนาดคุ้มค่ามากขึ้น ด้วยการลดเวลาโหลดโมเดลและเร่งการปรับขนาดอัตโนมัติ ฟีเจอร์เหล่านี้ทำให้ลูกค้าสามารถปรับปรุงการตอบสนองของแอปพลิเคชัน AI ช่วยสร้างได้เมื่อความต้องการมีความผันผวน ซึ่งเป็นประโยชน์โดยเฉพาะอย่างยิ่งกับบริการที่มีรูปแบบการรับส่งข้อมูลแบบไดนามิก

Container Caching ลดเวลาที่จำเป็นในการปรับขนาดโมเดล AI ช่วยสร้างเพื่อการอนุมานได้อย่างมาก โดยการแคชคอนเทนเนอร์อิมเมจล่วงหน้า ความสามารถนี้กำจัดความจำเป็นในการดาวน์โหลดเมื่อขยายขนาด ส่งผลให้เวลาการปรับขนาดลดลงอย่างมีนัยสำคัญสำหรับตำแหน่งข้อมูลของโมเดล AI ช่วยสร้าง Fast Model Loader สตรีมน้ำหนักโมเดลโดยตรงจาก Amazon S3 ไปยังตัวเร่ง ทำให้โหลดโมเดลได้เร็วขึ้นมากเมื่อเทียบกับวิธีการแบบดั้งเดิม ความสามารถเหล่านี้ทำให้ลูกค้าสามารถสร้างนโยบายการปรับขนาดอัตโนมัติที่ตอบสนองได้มากขึ้น ทำให้ SageMaker เพิ่มอินสแตนซ์ใหม่ได้หรือคัดลอกโมเดลได้อย่างรวดเร็วเมื่อถึงเกณฑ์ที่กำหนดไว้ จึงเป็นการรักษาประสิทธิภาพที่ดีที่สุดในระหว่างการพุ่งสูงของการรับส่งข้อมูล ในขณะเดียวกับที่จัดการต้นทุนได้อย่างมีประสิทธิภาพ

ความสามารถใหม่เหล่านี้สามารถเข้าถึงได้ใน AWS Region ทุกแห่งที่มี Amazon SageMaker Inference ให้บริการ หากต้องการเรียนรู้เพิ่มเติม โปรดดูเอกสารประกอบของเราสำหรับคำแนะนำการใช้งานโดยละเอียด