ฟีเจอร์ใหม่ใน AWS Neuron 2.24 ได้แก่ การรองรับ PyTorch 2.7 และการปรับปรุงการประมวลผลโมเดลเพื่อให้ผลลัพธ์
วันนี้ AWS ประกาศให้ Neuron 2.24 พร้อมใช้งานทั่วไป โดยมาพร้อมฟีเจอร์ใหม่และการปรับปรุงประสิทธิภาพสำหรับลูกค้าที่สร้างและนำโมเดลดีปเลิร์นนิงไปใช้งานบนอินสแตนซ์ที่ใช้ AWS Inferentia และ Trainium Neuron 2.24 รองรับ PyTorch 2.7 เพิ่มความสามารถในการทำ inference และขยายความเข้ากันได้กับเฟรมเวิร์กแมชชีนเลิร์นนิงให้มีความยอดนิยมมากขึ้น การอัปเดตเหล่านี้ช่วยให้นักพัฒนาและนักวิทยาศาสตร์ข้อมูลเร่งการฝึกโมเดลและ inference เพิ่มประสิทธิภาพและทำให้การนำโมเดลภาษาขนาดใหญ่และงาน AI อื่น ๆ ไปใช้จริงได้ง่ายขึ้น
ด้วย Neuron 2.24 ลูกค้าสามารถใช้ฟีเจอร์ inference ขั้นสูง เช่น prefix caching เพื่อให้ Time-To-First-Token (TTFT) เร็วขึ้น, เทคนิคการแบ่งขั้นตอนการทำ inference ออกเป็นส่วนย่อย ๆ ลดการรบกวนระหว่าง prefill และ decode และ context parallelism เพื่อเพิ่มประสิทธิภาพสำหรับลำดับข้อมูลยาว ๆ การอัปเดตนี้ยังรองรับโมเดลข้อความ Qwen 2.5 และปรับปรุงการทำงานร่วมกับ Hugging Face Optimum Neuron รวมถึงแบ็กเอนด์ NxD Core ที่ใช้ PyTorch
Neuron 2.24 พร้อมใช้งานในทุก AWS Region ที่มีอินสแตนซ์ Inferentia และ Trainium
ดูรายละเอียดเพิ่มเติมและรายการฟีเจอร์ใหม่กับการปรับปรุงทั้งหมดได้ที่: