تقوم AWS Neuron بتقديم Flash Attention kernel التي تتيح الأداء العالي وأطوال التسلسل الكبيرة
تعلن AWS اليوم عن طرح Neuron 2.19، الذي يقدم دعمًا لـ Flash Attention kernel لتمكين التدريب على نموذج LLM عالي الأداء والاستدلال بأطوال تسلسلية كبيرة.
AWS Neuron هي SDK للمثيلات المستندة إلى AWS Inferentia وTrainium المصممة خصيصًا للذكاء الاصطناعي المولّد. يتكامل Neuron مع إطارات عمل ML الشائعة مثل PyTorch. وهو يتضمن مترجمًا ووقت تشغيل وأدوات ومكتبات لدعم التدريب عالي الأداء واستدلال نماذج الذكاء الاصطناعي في مثيلات Trn1 وInf2.
يضيف هذا الإصدار ميزات جديدة وتحسينات في الأداء لكل من التدريب والاستدلال وUbuntu 22 Neuron DLAMIs الجديد لـ PyTorch 2.1 وPyTorch 1.13. يضيف Neuron 2.19 دعمًا لـ Flash Attention kernel لتمكين التدريب على أطوال التسلسل الكبيرة (أكبر من أو تساوي 8K)، والتدريب على نموذج Llama3، وتوازي المسارات المتداخلة لتعزيز كفاءة التدريب واستخدام الموارد. للاستدلال، يضيف هذا الإصدار دعم Flash Attention kernel لتمكين استدلال LLM لأطوال السياق التي تصل إلى 32 كيلو بايت. يضيف Neuron 2.19 أيضًا دعمًا لاستدلال نموذج Llama3 ويضيف دعمًا تجريبيًا للتجميع المستمر مع نماذج Mistral-7b-v0.2. تقدم Neuron 2.19 أدوات جديدة: كاشف مشاكل العقدة العصبية والمكون الإضافي للاسترداد في EKS وNeuron Monitor لـ EKS لتمكين مراقبة مقاييس الخلايا العصبية المحسنة في Kubernetes.
يمكنك استخدام AWS Neuron SDK لتدريب النماذج ونشرها على مثيلات Trn1 وInf2، المتوفرة في مناطق AWS كمثيلات عند الطلب أو مثيلات محجوزة أو مثيلات Spot أو جزء من خطة التوفير.
للحصول على قائمة بالميزات في Neuron 2.19، تفضل بزيارة ملاحظات إصدار Neuron. للبدء مع Neuron، راجع:
AWS Neuron
مثيلات Inf2
مثيلات Trn1