- المنتجات›
- تعلّم الآلة›
- AWS Inferentia
AWS Inferentia
الحصول على أداء عالٍ وبأقل تكلفة في Amazon EC2 في الاستدلال عن طريق الذكاء الاصطناعي المولّد والتعلّم العميق
لماذا يُستخدم Inferentia؟
قامت AWS بتصميم شرائح AWS Inferentia بهدف توفير أداء عالٍ بأقل تكلفة في Amazon EC2 لتطبيقات الاستدلال بواسطة التعلّم العميق والذكاء الاصطناعي المولّد.
يعمل الجيل الأول من شريحة AWS Inferentia على تشغيل مثيلات Amazon Elastic Compute Cloud (Amazon EC2) Inf1، التي توفر معدل نقل أعلى بمقدار 2.3 ضعف وتكلفة أقل بنسبة تصل إلى 70% لكل استدلال مقارنةً بمثيلات Amazon EC2. عَمِدَ العديد من العملاء، ومن بينهم Finch AI وSprinklr وMoney Forward وAmazon Alexa، إلى استخدام مثيلات Inf1 وأدركوا مزاياها من حيث الأداء والتكلفة.
توفر شريحة AWS Inferentia2 معدل نقل أعلى يصل إلى 4 أضعاف وزمن استجابة أقل بمقدار يصل إلى 10 أضعاف مقارنةً بـ Inferentia. تم تحسين مثيلات Amazon EC2 Inf2 المستندة إلى Inferentia2 لنشر النماذج متزايدة التعقيد، مثل نماذج اللغة الكبيرة (LLM) ونماذج الانتشار الكامنة، على نطاق واسع. مثيلات Inf2 هي أول مثيلات محسّنة للاستدلال في Amazon EC2 لدعم الاستدلال الموزع القابل للتوسعة مع وجود اتصال فائق السرعة بين الشرائح. عَمِدَ العديد من العملاء، ومن بينهم Leonardo.ai وDeutsche Telekom وQualtrics، إلى استخدام مثيلات Inf2 في تطبيقات التعلّم العميق وتطبيقات الذكاء الاصطناعي المولّد الخاصة بهم.
تساعد AWS Neuron SDK المطورين على نشر النماذج على شرائح AWS Inferentia (وتدريبهم على شرائح AWS Trainium). إنه بطبيعته يتكامل مع الأطر الشهيرة، مثل PyTorch وTensorFlow، ولذا يُمكنك مواصلة استخدام التعليمة البرمجية الحالية ومهام سير العمل الحالية والتشغيل على شرائح Inferentia.
مزايا AWS Inferentia
تحتوي كل شريحة من شرائح Inferentia من الجيل الأول على أربعة من الجيل الأول من NeuronCores، ويحتوي كل مثيل EC2 Inf1 على ما يصل إلى 16 شريحة Inferentia. تحتوي كل شريحة Inferentia2 على اثنين من الجيل الثاني من NeuronCores، ويحتوي كل مثيل EC2 Inf2 على ما يصل إلى 12 شريحة من شرائح Inferentia2. تدعم شريحة Inferentia2 (الخاصة بالذكاء الاصطناعي) ما يصل إلى 190 تيرافلوب في الثانية لأداء دقة FP16. الجيل الأول من Inferentia يتميز بذاكرة DDR4 قدرها 8 جيجابايت لكل شريحة ويتميز أيضًا بقدر كبير من ذاكرة الرقاقة. يوفر Inferentia2 ذاكرة عرض النطاق العالي (HBM) قدرها 32 جيجابايت لكل شريحة، مما يزيد من إجمالي الذاكرة بمقدار 4 أضعاف وزيادة عرض النطاق الترددي للذاكرة بمقدار 10 أضعاف مقارنةً بـ Inferentia.
إن مجموعة تطوير برمجيات AWS Neuron تتكامل بطبيعتها مع أُطر تعلّم الآلة الشهيرة مثل PyTorch وTensorFlow. مع AWS Neuron، يُمكنك استخدام هذه الأطر في نشر نماذج التعلّم العميق على النحو الأمثل على كل من شرائح AWS Inferentia، وقد تم تصميم Neuron بهدف الحد من تغيرات التعليمات البرمجية والتأقلم أو الترابط مع الحلول الخاصة بالمورّد. يساعدك Neuron في تشغيل تطبيقات الاستدلال لمهام معالجة اللغة الطبيعية (NLP)/فهمها، والترجمة اللغوية، وتلخيص النصوص، وإنشاء مقاطع الفيديو والصور، والتعرّف على الكلام، والتخصيص، واكتشاف الاحتيال، وغير ذلك الكثير على شرائح Inferentia.
الجيل الأول من Inferentia يدعم أنواع البيانات FP16 وBF16 وINT8. يُضيف Inferentia2 دعمًا إضافيًا لأنواع البيانات FP32 وTF32 ولنوع البيانات الجديد القابل للتكوين FP8 (cFP8) لتزويد المطورين بقدر أكبر من المرونة لتحسين الأداء وزيادة الدقة. يأخذ AWS Neuron نماذج FP32 عالية الدقة ويُرسلها تلقائيًا إلى أنواع بيانات منخفضة الدقة وفي الوقت نفسه يزيد من الدقة ويُحسّن الأداء. يعمل البث التلقائي (Autocasting) على تقليل الوقت اللازم للتسويق عن طريق التخلص من الحاجة إلى إعادة التدريب بدقة أقل.
يضيف Inferentia2 تحسينات أجهزة لأحجام الإدخال الديناميكية والمُشغّلات المخصصة المكتوبة بلغة C++. ويدعم أيضًا التقريب العشوائي، وهو طريقة للتقريب الاحتمالي تُمكّن من تحقيق أداء عالٍ ودقة أعلى مقارنةً بأنماط التقريب القديمة.
توفر مثيلات Inf2 أداءً أفضل بنسبة تصل إلى 50% لكل واط مقارنةً بمثيلات Amazon EC2 لأنها هي وشرائح Inferentia2 الأساسية مصممة خصيصًا لتشغيل نماذج التعلّم العميق على نطاق واسع. تساعدك مثيلات Inf2 في تحقيق أهداف الاستدامة عند نشر النماذج الكبيرة جدًا.
Karakuri
تعرّف على كيفية تقديم Karakuri لأداء عالٍ للذكاء الاصطناعي مع التحكم في التكاليف باستخدام AWS Inferentia
Metagenomi
تعرّف على كيفية تقليل Metagenomi لتكاليف تصميم البروتينات على نطاق واسع بنسبة تصل إلى 56% باستخدام AWS Inferentia
NetoAI
اكتشف كيف تمكّنت NetoAI من الوصول إلى وقت استجابة يتراوح بين 300 و600 مللي ثانية في الاستدلال باستخدام AWS Inferentia2
Tomofun
اكتشف كيف قامت Tomofun بخفض تكاليف نشر استدلال BLIP بنسبة 83% بعد الترحيل إلى AWS Inferentia
SplashMusic
اكتشف كيف نجحت SplashMusic في تقليص وقت استجابة الاستدلال
بمعدل 10 أضعاف باستخدام AWS Inferentia
Leonardo.ai
يستفيد فريقنا في شركة Leonardo من الذكاء الاصطناعي المولّد لتمكين المحترفين المبدعين والمتحمسين من إنتاج أصول مرئية بجودة فائقة، وسرعة عالية، واتساق مذهل في الأسلوب. من خلال استخدام AWS Inferentia2، تمكّنا من تقليل التكاليف بنسبة 80% دون التأثير على الأداء، مما غيّر جذريًا عرض القيمة الذي يمكننا تقديمه للعملاء، ومكّنّا من توفير ميزاتنا الأكثر تقدمًا بسعر أكثر سهولة. كما أنه يخفف من المخاوف بشأن التكلفة وتوافر السعة لخدمات الذكاء الاصطناعي الإضافية لدينا، والتي تزداد أهميتها مع نمونا وتوسعنا. تُعد هذه التقنية عنصرًا أساسيًا يتيح لنا مواصلة تجاوز الحدود الممكنة في مجال الذكاء الاصطناعي المولّد، ما يفتح أمام المستخدمين آفاقًا جديدة من الإبداع والتعبير.
Pete Werner, Head of AI, Leonardo.ai
Qualtrics
تقوم Qualtrics بتصميم وتطوير برامج إدارة التجارب.
في Qualtrics، نركّز على بناء تقنيات لسد الفجوات في تجارب العملاء والموظفين والتجارب المتعلقة بالعلامات التجارية والمنتجات. لتحقيق ذلك، نقوم بتطوير نماذج تعلم عميق متعددة المهام ومتعددة الوسائط لإطلاق ميزات جديدة مثل تصنيف النصوص، ووضع علامات على التسلسل، وتحليل الخطاب، واستخراج العبارات الرئيسية، واستخراج المواضيع، والتجميع، وفهم المحادثات من البداية إلى النهاية. نظرًا لأننا نستخدم هذه النماذج الأكثر تعقيدًا في المزيد من التطبيقات، يزداد حجم البيانات غير المهيكلة، ونحتاج إلى المزيد من الحلول المحسّنة للاستدلال التي يمكنها تلبية هذه المتطلبات، مثل مثيلات Inf2، لتقديم أفضل التجارب لعملائنا. نحن متحمسون لمثيلات Inf2 الجديدة لأنها لن تسمح لنا فقط بتحقيق سرعة أعلى، مع تقليل وقت الاستجابة بشكل كبير، ولكنها تقدم أيضًا ميزات مثل الاستدلال الموزَّع ودعم شكل الإدخال الديناميكي المُحسَّن، مما سيساعدنا على التوسع لتلبية احتياجات النشر بينما نمضي نحو نماذج كبيرة أكبر وأكثر تعقيدًا.
Aaron Colak, Head of Core Machine Learning, Qualtrics
Finch Computing
Finch Computing هي شركة تكنولوجيا اللغات الطبيعية التي تقدم تطبيقات الذكاء الاصطناعي للحكومة والخدمات المالية وعملاء تكامل البيانات.
لتلبية احتياجات عملائنا في معالجة اللغة الطبيعية في الوقت الفعلي، نقوم بتطوير نماذج تعلم عميق متقدمة قابلة للتوسّع لتناسب أعباء العمل الكبيرة في بيئات الإنتاج. يتعين علينا توفير معاملات ذات وقت استجابة منخفض وتحقيق معدلات نقل عالية لمعالجة تدفقات البيانات العالمية. لقد قمنا بالفعل بترحيل العديد من أعباء العمل الخاصة بالإنتاج إلى مثيلات Inf1 وحققنا انخفاضًا بنسبة 80% في التكلفة مقارنةً بوحدات معالجة الرسومات (GPUs). نقوم الآن بتطوير نماذج أكبر وأكثر تعقيدًا تتيح استخلاص معانٍ أعمق وأكثر دقة من النصوص المكتوبة. العديد من عملائنا يحتاجون إلى الوصول إلى هذه الرؤى في الوقت الفعلي، وسيساعدنا الأداء على مثيلات Inf2 في تقديم وقت استجابة أقل ومعدل نقل بيانات أعلى مقارنةً بمثيلات Inf1. من خلال تحسينات أداء Inf2 وميزات Inf2 الجديدة، مثل دعم أحجام المُدخَلات الديناميكية، نعمل على تحسين كفاءة التكلفة لدينا، والارتقاء بتجربة العملاء في الوقت الفعلي، ومساعدة عملائنا على استخلاص رؤى جديدة من بياناتهم.
Franz Weckesser, Chief Architect, Finch Computing
Dataminr
نرسل تنبيهات تتعلق بالعديد من أنواع الأحداث في جميع أنحاء العالم وبالعديد من اللغات، وبصيغ مختلفة (صور، أو فيديو، أو صوت، أو مستشعرات نصية، أو مزيج من كل هذه الأنواع) من مئات الآلاف من المصادر. نظرًا لهذا الحجم، يعد تحسين السرعة والتكلفة أمرًا بالغ الأهمية لأعمالنا. باستخدام AWS Inferentia، قمنا بخفض وقت استجابة النموذج وحققنا معدل نقل أفضل بما يصل إلى 9 أضعاف لكل USD. وقد سمح لنا ذلك بزيادة دقة النموذج وتنمية قدرات منصتنا من خلال نشر نماذج التعليم العميق الأكثر تعقيدًا ومعالجة حجم بيانات أكبر بمقدار 5 أضعاف مع إبقاء التكاليف ضمن الحدود المطلوبة.
Alex Jaimes, Chief Scientist and Senior Vice President of AI, Dataminr
Snap Inc.
نحن ندمج تعلم الآلة في العديد من جوانب Snapchat، واستكشاف الابتكار في هذا المجال هو أولوية رئيسية لدينا. وما أن سمعنا بـ Inferentia بدأنا في التعاون مع AWS لتبني مثيلات Inf1/Inferentia لتساعدنا في نشر تعلم الآلة بما يشمل الأداء والتكلفة. بدأنا بنماذج التوصية لدينا، ونتطلع إلى تبني المزيد من النماذج باستخدام مثيلات Inf1 في المستقبل.
Nima Khajehnouri, VP Engineering, Snap Inc.
Sprinklr
منصة Sprinklr الموحدة لإدارة تجارب العملاء (Unified-CXM) والمدعومة بالذكاء الاصطناعي تمكّن الشركات من جمع وترجمة ملاحظات العملاء الفورية عبر قنوات متعددة إلى رؤى قابلة للتنفيذ، مما يؤدي إلى حل استباقي للمشكلات، وتحسين تطوير المنتجات، وتعزيز التسويق بالمحتوى، وتقديم خدمة عملاء أفضل، والمزيد. باستخدام Amazon EC2 Inf1، تمكنا من تحسين أداء أحد نماذج معالجة اللغة الطبيعية بشكل كبير وتحسين أداء أحد نماذج الرؤية الحاسوبية لدينا. نتطلع إلى مواصلة استخدام Amazon EC2 Inf1 لتقديم خدمة أفضل لعملائنا في أنحاء العالم.
Vasant Srinivasan, Senior Vice President of Product Engineering, Sprinklr
Autodesk
تقوم Autodesk بتطوير التقنية الإدراكية لمساعدها الافتراضي المدعوم بالذكاء الاصطناعي، Autodesk Virtual Agent (AVA)، من خلال استخدام Inferentia. يجيب AVA على أكثر من 100000 سؤال للعملاء شهريًا من خلال تطبيق تقنيات فهم اللغة الطبيعية والتعلم العميق لاستخراج السياق والمقصد والمعنى وراء الاستفسارات. وبتجربة Inferentia، استطعنا الحصول على معدل نقل أعلى بمقدار 4.9 مرات من G4dn لنماذج فهم اللغة الطبيعية لدينا، ونتطلع لتشغيل المزيد من أعباء العمل على مثيلات Inf1 القائمة على Inferentia.
Binghui Ouyang, Sr. Data Scientist, Autodesk
Screening Eagle Technologies
إن استخدام رادار الاختراق الأرضي وكشف العيوب المرئية يكون عادةً من اختصاص خبراء المسح. إن البنية المستندة إلى الخدمات المُصغّرة من AWS تمكّننا من معالجة مقاطع الفيديو التي تلتقطها مركبات الفحص الآلي وعمال الفحص. وعن طريق ترحيل نماذجنا المعدة داخليًا من المثيلات التقليدية القائمة على وحدة معالجة الرسومات إلى Inferentia، استطعنا خفض التكاليف بمقدار 50%. علاوةً على ذلك، شهدنا مكاسب في الأداء عند مقارنة الأوقات مع مثيل G4dn GPU. يتطلع فريقنا إلى تشغيل المزيد من أعباء العمل على مثيلات Inf1 المستندة إلى Inferentia.
Jesús Hormigo, Chief of Cloud and AI Officer, Screening Eagle Technologies
NTT PC Communications Inc.
NTT PC Communications هي مزود لخدمات الشبكات وحلول الاتصالات في اليابان، وهي شركة اتصالات رائدة في تقديم منتجات مبتكرة جديدة في سوق تكنولوجيا المعلومات والاتصالات.
طورت NTT PC خدمة AnyMotion، وهي منصة واجهة برمجة تطبيقات لتحليل الحركة تعتمد على نماذج تعلم آلة متقدمة لتقدير الوضعيات. قمنا بنشر منصة AnyMotion الخاصة بنا على مثيلات Amazon EC2 Inf1 باستخدام Amazon ECS لخدمة تنسيق الحاويات المُدارة بالكامل. من خلال نشر حاويات AnyMotion على مثيلات Amazon EC2 Inf1، حققنا زيادة بمقدار 4.5 أضعاف في معدل النقل، وانخفاضًا بنسبة 25% في وقت استجابة الاستدلال، وتوفيرًا بنسبة 90% في التكاليف مقارنةً بمثيلات Amazon EC2 المعتمدة على وحدات معالجة الرسومات من الجيل الحالي. ستساعد تلك النتائج المذهلة في تحسين جودة خدمة AnyMotion على نطاق واسع.
Toshiki Yanagisawa, Software Engineer, NTT PC Communications Inc.
Anthem
تُعد Anthem واحدة من أبرز شركات مزايا الرعاية الصحية في البلاد، وتقدم خدماتها الصحية لأكثر من 40 مليون عضو في عشرات الولايات.
يشهد سوق المنصات الصحية الرقمية نموًا بوتيرة ملحوظة. ويعد جمع المعلومات حول هذا السوق مهمة صعبة بسبب الكم الهائل لبيانات آراء العملاء وطبيعتها غير المنظمة. يعمل تطبيقنا على أتمتة توليد رؤى قابلة للتنفيذ من آراء العملاء عبر نماذج اللغة الطبيعية الخاصة بالتعلم العميق (DL) (Transformers). يتميز تطبيقنا بأنه كثيف حوسبيًا ويحتاج لنشره بطريقة عالية الأداء. لقد قمنا بنشر عبء عمل استدلال التعلم العميق بسلاسة على مثيلات Amazon EC2 Inf1 المدعومة بمعالج AWS Inferentia. توفر مثيلات Inf1 الجديدة معدل نقل مضاعف مقارنةً بالمثيلات المعتمدة على وحدات معالجة الرسومات (GPU) كما سمحت لنا بتبسيط أعباء عمل الاستدلال لدينا.
Numan Laanait and Miro Mihaylov, PhDs, Principal AI/Data Scientists, Anthem