AWS Neuron เปิดตัวเคอร์เนล Flash Attention ซึ่งมอบประสิทธิภาพที่สูงและให้ความสามารถสำหรับความยาวลำดับขนาดใหญ่

โพสต์บน: 11 ก.ค. 2024

วันนี้ AWS ประกาศการเปิดตัว Neuron 2.19 ซึ่งเสนอการรองรับเคอร์เนล Flash Attention เพื่อปรับปรุงการฝึกและการอนุมานโมเดล LLM ให้มีประสิทธิภาพด้วยความยาวลำดับขนาดใหญ่

AWS Neuron คือ SDK สำหรับอินสแตนซ์ที่ใช้ AWS Inferentia และ Trainium ที่สร้างขึ้นมาเพื่อ AI ช่วยสร้างโดยเฉพาะ Neuron ผสานการทำงานเข้ากับเฟรมเวิร์ก ML ยอดนิยมต่าง ๆ เช่น PyTorch โดยประกอบด้วยคอมไพเลอร์ รันไทม์ เครื่องมือ และไลบรารีเพื่อรองรับการฝึกและการอนุมานที่มีประสิทธิภาพสูงของโมเดล AI บนอินสแตนซ์ Trn1 และ Inf2

รุ่นนี้เพิ่มฟีเจอร์และการปรับปรุงประสิทธิภาพใหม่ ๆ สำหรับทั้งการฝึกและการอนุมาน อีกทั้งยังใช้ Ubuntu 22 Neuron DLAMI ใหม่สำหรับ PyTorch 2.1 และ PyTorch 1.13 โดย Neuron 2.19 เพิ่มการรองรับเคอร์เนล Flash Attention เพื่อให้ความสามารถในการฝึกสำหรับความยาวลำดับขนาดใหญ่ (ไม่ต่ำกว่า 8K) การฝึกโมเดล Llama3 และการทำงานแนวขนานของไปป์ไลน์แบบแทรกสลับเพื่อปรับปรุงประสิทธิภาพการฝึกและการใช้ทรัพยากร สำหรับการอนุมาน รุ่นนี้เพิ่มการรองรับเคอร์เนล Flash Attention เพื่อให้ความสามารถในการอนุมาน LLM สำหรับความยาวบริบทสูงสุด 32k นอกจากนี้ Neuron 2.19 ยังรองรับการอนุมานโมเดล Llama3 และรองรับการสร้างแบตช์อย่างต่อเนื่องด้วยโมเดล Mistral-7B-v0.2 ในรูปแบบเบต้าด้วย Neuron 2.19 เสนอเครื่องมือใหม่ ได้แก่ ปลั๊กอินตรวจจับปัญหาและกู้คืนโหนด Neuron ใน EKS และ Neuron Monitor สำหรับ EKS เพื่อช่วยให้ติดตามตัวชี้วัดของ Neuron ได้ดีขึ้นใน Kubernetes

คุณสามารถใช้ AWS Neuron SDK เพื่อฝึกและใช้งานโมเดลบนอินสแตนซ์ Trn1 และ Inf2 ซึ่งมีให้บริการใน AWS Region ในรูปแบบแพ็กเกจ On-Demand Instances, Reserved Instances, Spot Instances หรือเป็นส่วนหนึ่งของ Savings Plan

ดูรายการฟีเจอร์ใน Neuron 2.19 ได้ที่บันทึกย่อประจำรุ่นสำหรับ Neuron หากต้องการเริ่มต้นใช้งาน Neuron โปรดดูข้อมูลต่อไปนี้
AWS Neuron
อินสแตนซ์ Inf2
อินสแตนซ์ Trn1