AWS Neuron memperkenalkan kernel Flash Attention yang memungkinkan kinerja tinggi dan panjang urutan yang besar
Hari ini, AWS mengumumkan rilis Neuron 2.19, memperkenalkan dukungan untuk kernel flash attention guna memungkinkan pelatihan dan inferensi model LLM yang berkinerja tinggi dengan panjang urutan yang besar.
AWS Neuron adalah SDK untuk instans berbasis AWS Inferentia dan Trainium yang dibuat khusus untuk AI generatif. Neuron terintegrasi dengan kerangka kerja ML populer seperti PyTorch. Neuron termasuk compiler, runtime, alat, dan pustaka untuk mendukung pelatihan kinerja tinggi dan inferensi model AI pada instans Trn1 dan Inf2.
Rilis ini menambahkan fitur baru dan peningkatan kinerja untuk pelatihan dan inferensi serta Ubuntu 22 Neuron DLAMIs baru untuk PyTorch 2.1 dan PyTorch 1.13. Neuron 2.19 menambahkan dukungan untuk kernel Flash Attention guna memungkinkan pelatihan untuk panjang urutan besar (lebih besar dari atau sama dengan 8K), pelatihan model Llama3, dan paralelisme pipeline yang disisipkan untuk meningkatkan efisiensi pelatihan dan pemanfaatan sumber daya. Untuk inferensi, rilis ini menambahkan dukungan kernel Flash Attention guna mengaktifkan inferensi LLM untuk panjang konteks hingga 32k. Neuron 2.19 juga menambahkan dukungan untuk inferensi model Llama3 dan menambahkan dukungan beta untuk batching berkelanjutan dengan model Mistral-7b-v0.2. Neuron 2.19 memperkenalkan alat baru: Plugin Neuron Node Problem Detector dan Recovery di EKS dan Neuron Monitor untuk EKS untuk memungkinkan pemantauan metrik Neuron yang ditingkatkan di Kubernetes.
Anda dapat menggunakan AWS Neuron SDK untuk melatih dan menerapkan model pada instans Trn1 dan Inf2, tersedia di AWS Regions sebagai Instans Sesuai Permintaan, Instans Cadangan, Instans Spot, atau bagian dari Rencana Penghematan.
Untuk daftar fitur di Neuron 2.19, kunjungi Catatan Rilis Neuron. Untuk mulai menggunakan Neuron, lihat:
AWS Neuron
Instans Inf2
Instans Trn1