AWS Neuron รองรับ Trainium2 และ NxD Inference แล้ว
วันนี้ AWS ได้ประกาศเปิดตัว Neuron 2.21 ซึ่งแนะนำการรองรับชิป AWS Trainium2 และอินสแตนซ์ Amazon EC2 Trn2 รวมถึงอินสแตนซ์ประเภท trn2.48xlarge และ Trn2 UltraServer อีกทั้ง ยังเพิ่มการรองรับ PyTorch 2.5 และเปิดตัว NxD Inference และ Neuron Profiler 2.0 (เบต้า) ด้วย NxD Inference คือไลบรารีใหม่ที่ใช้ PyTorch ซึ่งผสานระบบเข้ากับ vLLM ทำให้ปรับใช้โมเดลภาษาขนาดใหญ่และโมเดลหลายรูปแบบได้ง่ายขึ้น และเริ่มต้นใช้งานโมเดล PyTorch ได้ด้วยการเปลี่ยนแปลงโค้ดเพียงเล็กน้อย ส่วน Neuron Profiler 2.0 (เบต้า) คือ Profiler ใหม่ที่เพิ่มขีดความสามารถและการใช้งาน รวมถึงรองรับเวิร์กโหลดแบบกระจายตัว
Neuron 2.21 ยังรองรับการอนุมานโมเดล Llama 3.1 405B โดยใช้ NxD Inference บนอินสแตนซ์ trn2.48xlarge ตัวเดียว การเปิดตัวนี้มีการอัปเดต Deep Learning Containers (DLC) และ Deep Learning AMI (DLAMI) และเพิ่มการรองรับสถาปัตยกรรมโมเดลต่าง ๆ รวมถึงโมเดล Llama 3.2, Llama 3.3 และ Mixture-of-Experts (MoE) ฟีเจอร์การอนุมานใหม่ ๆ ได้แก่ การแปลงขนาดน้ำหนักแบบ FP8 และการถอดรหัสแบบแฟลชสำหรับการถอดรหัสแบบคาดเดาใน Transformers NeuronX (TNx) นอกจากนี้ ยังมีการเพิ่มตัวอย่างและฟีเจอร์การฝึกใหม่ ๆ เช่น การรองรับ HuggingFace Llama 3/3.1 70B บนอินสแตนซ์ Trn2 และการรองรับ DPO สำหรับการจัดแนวโมเดลหลังการฝึก
AWS Neuron SDK รองรับการฝึกและใช้งานโมเดลบนอินสแตนซ์ Trn1, Trn2 และ Inf2 ซึ่งมีให้บริการใน AWS Region ในรูปแบบ On-Demand Instance, Reserved Instance, Spot Instance หรือเป็นส่วนหนึ่งของ Savings Plan
สำหรับรายการฟีเจอร์ใหม่และการปรับปรุงทั้งหมดใน Neuron 2.21 และเพื่อเริ่มต้นใช้งาน Neuron โปรดดู: