انتقل إلى المحتوى الرئيسي

شرائح الذكاء الاصطناعي من AWS

AWS Trainium

Trainium3، أول شريحة 3nm AWS AI مصممة خصيصًا لتقديم أفضل اقتصاديات الرموز للجيل القادم من تطبيقات الوكلاء والاستدلال وتوليد الفيديو

ما سبب أهمية Trainium؟

AWS Trainium عبارة عن عائلة من مسرعات الذكاء الاصطناعي المصممة لهذا الغرض - Trn1 و Trn2 و Trn3 - المصممة لتقديم أداء قابل للتطوير وكفاءة من حيث التكلفة للتدريب والاستدلال عبر مجموعة واسعة من أعباء عمل الذكاء الاصطناعي المولدة

عائلة AWS Trainium

تراينيوم 1

تعمل شريحة AWS Trainium من الجيل الأول على تشغيل مثيلات Amazon Elastic Compute Cloud (Amazon EC2) Trn1، التي تقل تكاليف التدريب فيها بنسبة تصل إلى 50% عن مثيلات Amazon EC2 المماثلة. يحقق العديد من العملاء، بما في ذلك Ricoh و Karakuri و SplashMusic و Arcee AI، فوائد الأداء والتكلفة لمثيلات Trn1.

تراينيوم 2

توفر شريحة AWS Trainium2 ما يصل إلى 4 أضعاف أداء الجيل الأول من Trainium. تم تصميم مثيلات Amazon EC2 Trn2 المستندة إلى Trainium2 وخوادم Trn2 UltraServers خصيصًا للذكاء الاصطناعي التوليدي وتوفر أداء سعريًا أفضل بنسبة 30-40٪ من مثيلات EC2 P5e و P5en المستندة إلى وحدة معالجة الرسومات. تتميز مثيلات Trn2 بما يصل إلى 16 شريحة Trainium2، بينما تتميز خوادم Trn2 UltraServers بما يصل إلى 64 شريحة Trainium2 مترابطة مع NeuronLink، وهي وحدة التوصيل الخاصة بنا من شريحة إلى شريحة. يمكنك استخدام مثيلات Trn2 و UltraServers لتدريب ونشر النماذج الأكثر تطلبًا بما في ذلك نماذج اللغات الكبيرة (LLMs) والنماذج متعددة الوسائط ومحولات الانتشار، لبناء مجموعة واسعة من تطبيقات الذكاء الاصطناعي المولدة من الجيل التالي.

تراينيوم 3

تم تصميم Trn3 UltraServers، المدعومة بشريحة الذكاء الاصطناعي من الجيل الرابع الخاصة بنا، AWS Trainium3 - أول شريحة AI 3 نانومتر من AWS - خصيصًا لتقديم أفضل اقتصاديات الرموز للجيل التالي من تطبيقات الوكيل والاستدلال وتوليد الفيديو. توفر Trn3 UltraServers أداءً أعلى بنسبة تصل إلى 4.4 مرة، وعرض نطاق ذاكرة أعلى بمقدار 3.9 مرة، وكفاءة طاقة أفضل بأكثر من 4 مرات مقارنة بـ Trn2 UltraServers، مما يوفر أفضل أداء من حيث السعر للتدريب وخدمة النماذج واسعة النطاق، بما في ذلك التعلم المعزز، ومزيج الخبراء (MoE)، والتفكير، والبنى ذات السياق الطويل.

توفر كل شريحة AWS Trainium3 2.52 بيتافلوب (pFlops) من حوسبة FP8، وتزيد من سعة الذاكرة بمقدار 1.5 مرة وعرض النطاق الترددي بمقدار 1.7 مرة عبر Trainium 2 إلى 144 غيغابايت من ذاكرة HBM3e، و4.9 تيرابايت/ثانية من عرض النطاق الترددي للذاكرة، وقد تم تصميم Trainium3 لكل من أحمال العمل الكثيفة والمتوازية مع الخبراء مع أنواع البيانات المتقدمة (MXFP8 وMXFP4) والتوازن المحسّن بين الذاكرة والحوسبة في الوقت الفعلي والوسائط المتعددة والاستدلال المهام.

في Amazon Bedrock، يعد Trainium3 أسرع مسرّع، حيث يوفر أداءً أسرع بما يصل إلى 3 مرات من Trainium2 وكفاءة طاقة أفضل 3 مرات من أي مسرّع آخر في الخدمة. في اختبارات الخدمة واسعة النطاق (على سبيل المثال، GPT-OSS)، يقدم Trn3 رموز إخراج أعلى بمقدار 5 مرات لكل ميغاواط من Trn2 في وقت استجابة مماثل لكل مستخدم، مما يتيح استدلال أكثر استدامة وإنتاجية أعلى على نطاق واسع.

تم تصميمه للمطورين

تم تصميم مثيلات جديدة تستند إلى Trainium3 للباحثين في مجال الذكاء الاصطناعي ويتم تشغيلها بواسطة AWS Neuron SDK لفتحها
أداء خارق. 

من خلال تكامل PyTorch الأصلي، يمكن للمطورين التدريب والنشر دون تغيير سطر واحد من التعليمات البرمجية. من أجل الذكاء الاصطناعي
مهندسو الأداء، لقد قمنا بتمكين الوصول بشكل أعمق إلى Trainium3، حتى يتمكن المطورون من ضبط الأداء بدقة،
قم بتخصيص النواة ودفع نماذجك إلى أبعد من ذلك. لأن الابتكار يعزز الانفتاح، نحن ملتزمون
للتفاعل مع مطورينا من خلال أدوات وموارد مفتوحة المصدر. 

لمعرفة المزيد، تفضل بزيارة مثيلات Amazon EC2 Trn3، واستكشف AWS Neuron SDK، أو قم بالتسجيل للوصول للمعاينة.

الفوائد

تتميز خوادم Trn3 UltraServers بأحدث الابتكارات في تقنية UltraServer القابلة للتوسعة، مع NeuronSwitch-v1 لـ
مجموعات أسرع من الجميع عبر ما يصل إلى 144 شريحة Trainium3. بشكل إجمالي، يوفر خادم Trn3 UltraServer واحد ما يلي:
إلى 20.7 تيرابايت من HBM3e، و706 تيرابايت/ثانية من عرض النطاق الترددي للذاكرة، و362 FP8 PFlops، مما يوفر ما يصل إلى 4.4 × أكثر
أداء وكفاءة طاقة أفضل بأكثر من 4 مرات مقارنة بخوادم Trn2 UltraServers. يوفر Trn3 أعلى مستوى
الأداء بأقل تكلفة للتدريب والاستدلال باستخدام أحدث معايير 1T+MoE ونماذج نوع الاستدلال، ويؤدي إلى إنتاجية أعلى بكثير لخدمة GPT-OSS على نطاق واسع مقارنة بـ Trainium2-
مثيلات تستند إلى.

تظل Trn2 UltraServers خيارًا عالي الأداء وفعالًا من حيث التكلفة للتدريب التوليدي على الذكاء الاصطناعي والاستدلال على
نماذج تصل إلى معايير 1T. تتميز مثيلات Trn2 بما يصل إلى 16 شريحة من شرائح Trainium2 وميزة Trn2 UltraServers
ما يصل إلى 64 شريحة Trainium2 متصلة بـ NeuronLink، وهو اتصال داخلي خاص من شريحة إلى شريحة.

تتميز مثيلات Trn1 بما يصل إلى 16 شريحة Trainium وتوفر ما يصل إلى 3 شرائح FP8 PFlops و 512 جيجابايت من HBM مع 9.8 تيرابايت/ثانية من
عرض النطاق الترددي للذاكرة، وما يصل إلى 1.6 تيرابايت من شبكات EFA.

مصممة للبحث والتجريب

تساعدك AWS Neuron SDK على استخراج الأداء الكامل من مثيلات Trn3 وTrn2 وTrn1 حتى تتمكن من التركيز على بناء النماذج ونشرها وتسريع وقت وصولك إلى السوق. تتكامل AWS Neuron محليًا مع PyTorch Jax والمكتبات الأساسية مثل Huging Face و vLLM و PyTorch Lightning وغيرها. إنه يعمل على تحسين النماذج الجاهزة للتدريب والاستدلال الموزع، مع توفير رؤى عميقة للتوصيف وتصحيح الأخطاء. تتكامل AWS Neuron مع خدمات مثل Amazon SageMaker وAmazon SageMaker Hyperpod وخدمة Amazon Elastic Kubernetes (Amazon EKS) وخدمة أمازون للحاويات المرنة (Amazon ECS) وAWS ParallelCluster وAWS Batch، بالإضافة إلى خدمات الطرف الثالث مثل راي (Anyscale)، ومختبر بيانات دومينو، وداتادوج.

لتقديم أداء عالٍ مع تحقيق أهداف الدقة، تدعم AWS Trainium مجموعة من الدقة المختلطة
أنواع البيانات مثل BF16 و FP16 و FP8 و MXFP8 و MXFP4. لدعم الوتيرة السريعة للابتكار في الذكاء الاصطناعي التوليدي،
يتميز كل من Trainium2 و Trainium3 بتحسينات للأجهزة من أجل تباين 4 مرات (16:4)، والتحجيم الجزئي، والعشوائية
التقريب والمحركات الجماعية المخصصة.

تُمكّن Neuron المطورين من تحسين أعباء العمل باستخدام واجهة Neuron Kernel (NKI) لتطوير النواة. تعرض NKI نظام Trainium ISA الكامل، مما يتيح التحكم الكامل في البرمجة على مستوى التعليمات وتخصيص الذاكرة وجدولة التنفيذ. إلى جانب بناء النواة الخاصة بك، يمكن للمطورين استخدام مكتبة Neuron Kernel، وهي مفتوحة المصدر وجاهزة لنشر النواة المحسّنة. وأخيرًا، يوفر Neuron Explore رؤية كاملة للمكدس، حيث يتصل بالمطورين الذين يقومون بالتشفير وصولاً إلى المحركات الموجودة في الأجهزة.

العملاء

يحقق العملاء مثل Databricks و Ricoh و Karakuri و SplashMusic وغيرهم فوائد الأداء والتكلفة لمثيلات Trn1.

يحقق العملاء بما في ذلك أنثروبيك، داتابريكز، بولسايد، ريكو، ونينجا تيك إيه آي أداءً كبيرًا وفوائد من حيث التكلفة على مثيلات Trn1 و Trn2.

يحقق المتبنون الأوائل لـ Trn3 مستويات جديدة من الكفاءة وقابلية التوسع للجيل القادم من نماذج الذكاء الاصطناعي التوليدية واسعة النطاق.

Missing alt text value

تحقيق التفوق في أداء الذكاء الاصطناعي وخفض التكاليف وتوسيع النطاق

AWS Trainium2 لتحقيق أداء ثوري في الذكاء الاصطناعي

قصص نجاح العملاء مع شرائح الذكاء الاصطناعي من AWS