ชิป AWS AI

AWS Inferentia

รับประสิทธิภาพการใช้งานระดับสูงที่ต้นทุนต่ำสุดใน Amazon EC2 สำหรับดีปเลิร์นนิงและการอนุมานของ AI ช่วยสร้าง

เริ่มต้นใช้งานชิป AWS Inferentia โดยใช้ AWS Neuron

เหตุผลที่ควรใช้ Inferentia

ชิป AWS Inferentia ได้รับการออกแบบโดย AWS เพื่อมอบประสิทธิภาพขั้นสูงด้วยต้นทุนต่ำสุดใน Amazon EC2 สำหรับการใช้งานด้านดีปเลิร์นนิง (DL) และการอนุมานของ AI ช่วยสร้าง

ชิป AWS Inferentia รุ่นแรกขับเคลื่อนอินสแตนซ์ Inf1 ของ Amazon Elastic Compute Cloud (Amazon EC2) ซึ่งให้อัตราการโอนถ่ายข้อมูลที่สูงขึ้นถึง 2.3 เท่าและต้นทุนต่อการอนุมานที่ลดลงมากกว่าอินสแตนซ์ Amazon EC2 ที่เทียบเคียงกันได้สูงสุด 70% ลูกค้าจำนวนมาก รวมถึง Finch AI, Sprinklr, Money Forward และ Amazon Alexa ได้ใช้อินสแตนซ์ Inf1 และตระหนักถึงผลประโยชน์ด้านประสิทธิภาพและต้นทุน

ชิป AWS Inferentia2 ให้อัตราการโอนถ่ายข้อมูลที่สูงขึ้นถึง 4 เท่าและเวลาแฝงต่ำกว่าถึง 10 เท่าเมื่อเทียบกับ Inferentia อินสแตนซ์ Amazon EC2 Inf2 ที่ใช้ Inferentia2 ได้รับการปรับให้เหมาะสมเพื่อปรับใช้โมเดลที่ซับซ้อนมากขึ้นเรื่อย ๆ เช่น โมเดลภาษาขนาดใหญ่ (LLM) และโมเดลการแพร่กระจายแฝงได้ทุกขนาด อินสแตนซ์ Inf2 เป็นอินสแตนซ์ที่ได้รับการปรับให้เหมาะสมกับการอนุมานครั้งแรกใน Amazon EC2 เพื่อรองรับการอนุมานแบบกระจายและแบบขยายด้วยการเชื่อมต่อความเร็วสูงพิเศษระหว่างชิปต่าง ๆ ลูกค้าจำนวนมากรวมถึง Leonardo.ai, Deutsche Telekom และ Qualtrics ได้ใช้อินสแตนซ์ Inf2 สำหรับแอปพลิเคชัน DL และ AI ช่วยสร้างของตน

AWS Neuron SDK ช่วยให้นักพัฒนาสามารถปรับใช้โมเดลบนชิป AWS Inferentia (และฝึกโมเดลเหล่านั้นบนชิป AWS Trainium) โดยผสานเข้ากับเฟรมเวิร์กยอดนิยมแบบดั้งเดิม เช่น PyTorch และ TensorFlow เพื่อให้คุณสามารถใช้โค้ดและเวิร์กโฟลว์ที่มีอยู่ของคุณต่อไปและฝึกกับชิป Inferentia ได้

ประโยชน์ของ AWS Inferentia

ชิป Inferentia รุ่นแรกแต่ละชิปมี NeuronCore รุ่นแรกจำนวน 4 ตัว และอินสแตนซ์ EC2 Inf1 แต่ละตัวมีชิป Inferentia สูงสุด 16 ชิป ชิป Inferentia2 แต่ละชิปมี NeuronCores รุ่นสองจำนวน 2 ตัว และอินสแตนซ์ EC2 Inf2 แต่ละตัวมีชิป Inferentia2 สูงสุด 12 ชิป ชิป Inferentia2 แต่ละชิปรองรับประสิทธิภาพของ FP16 ในการทำงานแบบลอยตัวสูงสุด 190 เทราฟลอปส์ (TFLOPS) Inferentia รุ่นแรกมีหน่วยความจำ DDR4 ขนาด 8 GB ต่อชิป และยังมีหน่วยความจำบนชิปจำนวนมาก Inferentia2 มี HBM ขนาด 32 GB ต่อชิป ซึ่งเพิ่มหน่วยความจำรวมเป็น 4 เท่าและแบนด์วิดท์หน่วยความจำเป็น 10 เท่าเมื่อเทียบกับ Inferentia

AWS Neuron SDK ผสานรวมเข้ากับเฟรมเวิร์ก ML ยอดนิยม เช่น PyTorch และ TensorFlow เพียงใช้ AWS Neuron คุณก็สามารถใช้เฟรมเวิร์กเหล่านี้เพื่อปรับใช้โมเดล DL ได้อย่างเหมาะสมกับชิป AWS Inferentia ทั้งสองตัว และ Neuron ได้รับการออกแบบมาเพื่อลดการเปลี่ยนแปลงโค้ดและเชื่อมโยงกับโซลูชันเฉพาะผู้จัดจำหน่าย Neuron ช่วยให้คุณเรียกใช้แอปพลิเคชันการอนุมานของคุณสำหรับการประมวลผลภาษาธรรมชาติ (NLP)/ความเข้าใจ การแปลภาษา การสรุปข้อความ การสร้างวิดีโอและรูปภาพ การรู้จำเสียงพูด การปรับให้เหมาะกับแต่ละบุคคล การตรวจจับการฉ้อโกง และอีกมากมายบนชิป Inferentia

Inferentia รุ่นแรกรองรับประเภทข้อมูล FP16, BF16 และ INT8 Inferentia2 เพิ่มการสนับสนุนเพิ่มเติมสำหรับ FP32, TF32 และประเภทข้อมูล FP8 (cFP8) ที่กำหนดค่าได้ใหม่เพื่อให้นักพัฒนามีความยืดหยุ่นมากขึ้นในการปรับปรุงประสิทธิภาพและเพิ่มความแม่นยำ AWS Neuron ใช้โมเดล FP32 ที่มีความแม่นยำสูงและส่งไปยังประเภทข้อมูลที่มีความแม่นยำต่ำโดยอัตโนมัติในขณะที่เพิ่มความแม่นยำและประสิทธิภาพยิ่งขึ้น Autocasting ช่วยลดเวลาในการออกสู่ตลาดโดยขจัดความจำเป็นในการฝึกซ้ำที่มีความแม่นยำต่ำ

Inferentia2 เพิ่มการปรับปรุงประสิทธิภาพของฮาร์ดแวร์สำหรับขนาดอินพุตแบบไดนามิกและตัวดำเนินการแบบกำหนดเองที่เขียนใน C++ นอกจากนี้ ยังรองรับการปัดเศษแบบสโตคาสติกซึ่งเป็นวิธีการปัดเศษอย่างน่าจะเป็นเพื่อให้ได้ประสิทธิภาพสูงและความแม่นยำที่สูงขึ้นเมื่อเทียบกับโหมดการปัดเศษแบบเดิม

อินสแตนซ์ Inf2 ให้ประสิทธิภาพที่ดีขึ้นสูงสุดถึง 50% ต่อวัตต์เมื่อเทียบกับอินสแตนซ์ Amazon EC2 ที่เทียบเคียงกันได้ เนื่องจากอินสแตนซ์เหล่านี้และชิป Inferentia2 พื้นฐานถูกสร้างขึ้นเพื่อเรียกใช้โมเดล DL ในทุกขนาด อินสแตนซ์ Inf2 ช่วยให้คุณบรรลุเป้าหมายความยั่งยืนของคุณเมื่อใช้โมเดลขนาดใหญ่พิเศษ

Karakuri

เรียนรู้วิธีที่ Karakuri ส่งมอบ AI ประสิทธิภาพสูงไปพร้อมกับการควบคุมต้นทุนโดยใช้ AWS Inferentia

รับชมวิดีโอ

Metagenomi

เรียนรู้วิธีที่ Metagenomi ลดต้นทุนการออกแบบโปรตีนขนาดใหญ่ได้ถึง 56% โดยใช้ AWS Inferentia

อ่านบล็อก

NetoAI

เรียนรู้ว่า NetoAI ได้รับเวลาแฝงการอนุมาน 300–600 ms โดยใช้ AWS Inferentia2 ได้อย่างไร

อ่านคำนิยม

Tomofun

เรียนรู้วิธีที่ Tomofun ลดต้นทุนการปรับใช้การอนุมาน BLIP ลง 83% โดยการโอนย้ายไปยัง AWS Inferentia

อ่านคำนิยม

SplashMusic

เรียนรู้ว่า SplashMusic ลดเวลาแฝงการอนุมานได้อย่างไร
สูงสุด 10 เท่า โดยใช้ AWS Infertia

อ่านคำนิยม

Leonardo.ai

ทีมงานของเราที่ Leonardo ใช้ประโยชน์จาก AI ช่วยสร้างเพื่อช่วยให้ผู้เชี่ยวชาญและผู้ที่ชื่นชอบงานสร้างสรรค์สามารถสร้างชิ้นงานด้านภาพด้วยคุณภาพ ความเร็ว และสไตล์ที่สม่ำเสมอซึ่งไม่มีใครเทียบได้ เมื่อใช้ AWS Inferentia2 ช่วยให้เราลดต้นทุนได้ถึง 80% โดยไม่ลดทอนประสิทธิภาพการทำงาน ถือเป็นการเปลี่ยนแปลงข้อเสนอคุณค่าที่เราสามารถเสนอให้ลูกค้าได้อย่างแท้จริง ช่วยให้สามารถใช้ฟีเจอร์ขั้นสูงที่สุดในราคาที่เข้าถึงได้ง่ายกว่า นอกจากนี้ยังช่วยบรรเทาความกังวลด้านต้นทุนและความพร้อมใช้งานของกำลังการผลิตสำหรับบริการ AI เสริมของเรา ซึ่งมีความสำคัญมากขึ้นเมื่อธุรกิจเราเติบโตและขยายตัว นี่เป็นเทคโนโลยีสำคัญที่ช่วยให้เราสามารถพัฒนาศักยภาพของ AI ช่วยสร้างได้อย่างต่อเนื่อง ส่งผลให้ผู้ใช้ของเราสามารถก้าวเข้าสู่ยุคใหม่แห่งความคิดสร้างสรรค์และพลังแห่งการแสดงออกได้

Pete Werner หัวหน้าฝ่าย AI ของ Leonardo.ai

Qualtrics

Qualtrics ออกแบบและพัฒนาซอฟต์แวร์การจัดการประสบการณ์

ที่ Qualtrics เรามุ่งเน้นคือการสร้างเทคโนโลยีที่ช่วยปิดช่องว่างประสบการณ์สำหรับลูกค้า พนักงาน แบรนด์ และผลิตภัณฑ์ เพื่อให้บรรลุเป้าหมายดังกล่าว เราจึงได้พัฒนาโมเดล DL แบบมัลติทาสก์และมัลติโหมดที่ซับซ้อน เพื่อเปิดตัวฟีเจอร์ใหม่ ๆ เช่น การจัดประเภทข้อความ การแท็กลำดับ การวิเคราะห์บทสนทนา การสกัดวลีสำคัญ การสกัดหัวข้อ การจัดกลุ่ม และการทำความเข้าใจบทสนทนาแบบครบวงจร เมื่อเราใช้โมเดลที่ซับซ้อนมากขึ้นเหล่านี้ในแอปพลิเคชันต่าง ๆ ปริมาณข้อมูลที่ไม่มีโครงสร้างก็เพิ่มมากขึ้นด้วย และเราต้องการโซลูชันที่เพิ่มประสิทธิภาพสำหรับการอนุมานซึ่งสามารถตอบสนองความต้องการเหล่านี้ เช่น อินสแตนซ์ Inf2 เพื่อมอบประสบการณ์ที่ดีที่สุดให้กับลูกค้าของเรา เรารู้สึกตื่นเต้นกับอินสแตนซ์ Inf2 ใหม่ เพราะไม่เพียง ช่วยให้เราบรรลุปริมาณงานที่สูงขึ้นในขณะที่ลดความล่าช้าได้อย่างมากเท่านั้น แต่ยังนำมาซึ่งฟีเจอร์ต่าง ๆ เช่น การอนุมานแบบกระจายและการสนับสนุนรูปร่างอินพุตแบบไดนามิกที่เพิ่มขึ้น ซึ่งจะช่วยให้เราปรับขนาดให้ตรงตามความต้องการในการใช้งานขณะที่เรามุ่งสู่โมเดลขนาดใหญ่ที่ใหญ่และซับซ้อนมากขึ้น

Aaron Colak หัวหน้าฝ่ายแมชชีนเลิร์นนิงหลักของ Qualtrics

Finch Computing

Finch Computing เป็นบริษัทเทคโนโลยีภาษาธรรมชาติที่ให้บริการแอปพลิเคชันปัญญาประดิษฐ์สำหรับภาครัฐ บริการทางการเงิน และลูกค้าผู้รวบรวมข้อมูล

เพื่อตอบสนองความต้องการของลูกค้าของเราสำหรับ NLP แบบเรียลไทม์ เราพัฒนาโมเดล DL ที่ล้ำสมัยซึ่งปรับขนาดเวิร์กโหลดการผลิตขนาดใหญ่ได้ เราต้องจัดทำธุรกรรมที่มีเวลาแฝงต่ำและบรรลุอัตราการโอนถ่ายข้อมูลสูงเพื่อประมวลผลฟีดข้อมูลทั่วโลก เราได้ย้ายเวิร์กโหลดการผลิตจำนวนมากไปยังอินสแตนซ์ Inf1 แล้ว และลดต้นทุน GPU ได้ถึง 80% ตอนนี้เรากำลังพัฒนาโมเดลที่ใหญ่กว่าและซับซ้อนมากกว่า ซึ่งช่วยให้สามารถตีความข้อความที่เขียนได้ลึกซึ้งและเข้าใจได้มากขึ้น ลูกค้าจำนวนมากต้องการเข้าถึงข้อมูลเชิงลึกเหล่านี้ในแบบเรียลไทม์ และประสิทธิภาพการทำงานบนอินสแตนซ์ Inf2 จะช่วยให้เราสามารถส่งมอบความล่าช้าที่ต่ำลงและปริมาณงานที่สูงกว่าบนอินสแตนซ์ Inf1 ด้วยการปรับปรุงประสิทธิภาพของ Inf2 และคุณลักษณะใหม่ของ Inf2 เช่น การรองรับขนาดอินพุตแบบไดนามิก เรากำลังปรับปรุงประสิทธิภาพด้านต้นทุน ยกระดับประสบการณ์ลูกค้าแบบเรียลไทม์ และช่วยให้ลูกค้าของเราได้รับข้อมูลเชิงลึกใหม่ ๆ จากข้อมูลของตน

Franz Weckesser หัวหน้าสถาปนิกของ Finch Computing

Dataminr

เราแจ้งเตือนเหตุการณ์หลายประเภททั่วโลกในภาษาต่าง ๆ มากมาย ในรูปแบบที่หลากหลาย (รูปภาพ วิดีโอ เสียง เซ็นเซอร์ข้อความ หรือผสมผสานการแจ้งเตือนประเภทเหล่านี้ทั้งหมดเข้าด้วยกัน) จากแหล่งข้อมูลหลายแสนแห่ง การปรับให้เหมาะสมกับความเร็วและต้นทุนตามขนาดนั้นเป็นสิ่งสำคัญอย่างยิ่งสำหรับธุรกิจของเรา เมื่อใช้ AWS Inferentia เราสามารถลดเวลาแฝงของโมเดลและมีอัตราการโอนถ่ายข้อมูลดีขึ้นถึง 9 เท่าต่อดอลลาร์ ซึ่งทำให้เราสามารถเพิ่มความแม่นยำของโมเดลและเพิ่มขีดความสามารถของแพลตฟอร์มของเราได้โดยการปรับใช้โมเดล DL ที่ซับซ้อนมากขึ้นและประมวลผลข้อมูลในปริมาณมากขึ้น 5 เท่า ในขณะที่ควบคุมค่าใช้จ่ายของเราไว้ได้

Alex Jaimes หัวหน้านักวิทยาศาสตร์และรองประธานอาวุโสด้าน AI ของ Dataminr

Snap Inc.

เราใช้งาน ML ในหลาย ๆ ส่วนของ Snapchat และการสำรวจนวัตกรรมใหม่ ๆ ในด้านนี้ถือเป็นสิ่งสำคัญอันดับแรก เมื่อได้ทราบข่าวเกี่ยวกับ Inferentia เราจึงเริ่มร่วมงานกับ AWS เพื่อใช้อินสแตนซ์ Inf1/Inferentia ในการช่วยติดตั้งใช้งาน ML รวมถึงในด้านประสิทธิภาพและต้นทุน เราเริ่มต้นจากรูปแบบการแนะนำและคาดหวังว่าจะได้ใช้รูปแบบอื่นเพิ่มเติมกับอินสแตนซ์ Inf1 ในอนาคต

Nima Khajehnouri รองประธานฝ่ายวิศวกรรมของ Snap Inc.

Sprinklr

แพลตฟอร์มการจัดการประสบการณ์ของลูกค้าแบบครบวงจร (Unified-CXM) ที่ขับเคลื่อนด้วย AI ของ Sprinklr ช่วยให้บริษัทต่าง ๆ สามารถรวบรวมและแปลความคิดเห็นของลูกค้าแบบเรียลไทม์ในช่องทางต่าง ๆ ให้เป็นข้อมูลเชิงลึกที่นำไปปฏิบัติได้ ส่งผลให้เกิดการแก้ไขปัญหาเชิงรุก การพัฒนาผลิตภัณฑ์ที่เพิ่มขึ้น การตลาดผ่านเนื้อหาที่ดีขึ้น การบริการลูกค้าที่ดีขึ้น และอื่น ๆ อีกมากมาย เมื่อใช้ Amazon EC2 Inf1 เราสามารถเพิ่มประสิทธิภาพโมเดล NLP รูปแบบหนึ่งของเราได้เป็นอย่างมาก รวมถึงเพิ่มประสิทธิภาพของโมเดลคอมพิวเตอร์วิทัศน์รูปแบบหนึ่งของเราได้อีกด้วย เราหวังว่าจะใช้ Amazon EC2 Inf1 ต่อไปเพื่อให้บริการแก่ลูกค้าทั่วโลกของเราได้ดียิ่งขึ้น

Vasant Srinivasan รองประธานอาวุโสฝ่ายวิศวกรรมผลิตภัณฑ์ของ Sprinklr

Autodesk

Autodesk กำลังพัฒนาเทคโนโลยีการรู้คิดของผู้ช่วยเสมือนของเราที่ขับเคลื่อนโดย AI ที่มีชื่อว่า Autodesk Virtual Agent (AVA) โดยใช้ Inferentia ซึ่ง AVA ตอบคำถามลูกค้ากว่า 100,000 ข้อต่อเดือนด้วยการใช้ความเข้าใจภาษาที่เป็นธรรมชาติ (NLU) และเทคนิค DL ในการหาบริบท เจตนา และความหมายเบื้องหลังการสอบถาม จากการเริ่มนำร่องกับ Inferentia เราสามารถรับอัตราการโอนถ่ายข้อมูลได้สูงกว่า G4dn ถึง 4.9 เท่าสำหรับโมเดล NLU ของเรา และคาดหวังว่าจะเรียกใช้เวิร์กโหลดได้มากขึ้นในอินสแตนซ์ Inf1 ที่ใช้ Inferentia

Binghui Ouyang นักวิทยาศาสตร์ข้อมูลอาวุโสของ Autodesk

Screening Eagle Technologies

โดยทั่วไปแล้ว ผู้เชี่ยวชาญด้านการสำรวจมักจะเป็นผู้รับผิดชอบในการใช้เรดาร์เจาะพื้นและตรวจจับข้อบกพร่องที่มองเห็นได้ สถาปัตยกรรมที่ใช้ไมโครเซอร์วิสของ AWS ช่วยให้เราประมวลผลวิดีโอที่บันทึกโดยยานพาหนะตรวจสอบแบบอัตโนมัติและผู้ตรวจสอบได้ การย้ายโมเดลที่สร้างขึ้นภายในของเราจากอินสแตนซ์ที่ใช้ GPU แบบเดิมไปยัง Inferentia ทำให้เราสามารถลดต้นทุนลงได้ถึง 50% นอกจากนี้ เรายังได้รับประสิทธิภาพที่เพิ่มขึ้นเมื่อเทียบเวลากับอินสแตนซ์ G4dn GPU อีกด้วย ทีมของเราเฝ้ารอที่จะได้เรียกใช้เวิร์กโหลดมากขึ้นบนอินสแตนซ์ Inf1 ที่ใช้ Inferentia

Jesús Hormigo หัวหน้าฝ่ายระบบคลาวด์และเจ้าหน้าที่ AI ของ Screening Eagle Technologies

NTT PC Communications Inc.

NTT PC Communications เป็นผู้ให้บริการเครือข่ายและโซลูชันการสื่อสารในญี่ปุ่น ซึ่งเป็นผู้นำด้านโทรคมนาคมในการแนะนำผลิตภัณฑ์ที่เป็นนวัตกรรมใหม่ในตลาดเทคโนโลยีสารสนเทศและการสื่อสาร

NTT PC ได้พัฒนา AnyMotion ซึ่งเป็นบริการแพลตฟอร์ม API การวิเคราะห์การเคลื่อนไหวโดยใช้โมเดล ML เพื่อประมาณท่าทางขั้นสูง เราปรับใช้แพลตฟอร์ม AnyMotion บนอินสแตนซ์ Amazon EC2 Inf1 โดยใช้ Amazon ECS สําหรับบริการ Container Orchestration ที่มีการจัดการเต็มรูปแบบ การติดตั้งใช้งานคอนเทนเนอร์ AnyMotion บน Amazon EC2 Inf1 ทำให้เราพบว่าอัตราการโอนถ่ายข้อมูลสูงขึ้นถึง 4.5 เท่า, เวลาแฝงในการอนุมานที่ต่ำลงถึง 25% และค่าใช้จ่ายที่ต่ำลงถึง 90% เมื่อเทียบกับอินสแตนซ์ EC2 ที่ใช้ GPU รุ่นปัจจุบัน ผลลัพธ์ที่เหนือกว่าเหล่านี้จะช่วยปรับปรุงคุณภาพของบริการ AnyMotion ในวงกว้าง

Toshiki Yanagisawa วิศวกรซอฟต์แวร์ของ NTT PC Communications Inc.

Anthem

Anthem เป็นหนึ่งในบริษัทที่ให้บริการด้านสุขภาพชั้นนำของประเทศ ซึ่งให้บริการสุขภาพแก่สมาชิกกว่า 40 ล้านคนทั่วสหรัฐอเมริกา

ตลาดของแพลตฟอร์มดิจิทัลด้านสุขภาพกำลังเติบโตขึ้นอย่างเห็นได้ชัด การรวบรวมข้อมูลในตลาดนี้ถือเป็นเรื่องที่ท้าทาย เนื่องจากปริมาณข้อมูลความคิดเห็นของลูกค้าที่มีมากมายและลักษณะที่ไม่เป็นระบบของข้อมูล แอปพลิเคชันของเราทำให้การสร้างข้อมูลเชิงลึกที่นำมาปฏิบัติได้จากความคิดเห็นของลูกค้าเป็นแบบอัตโนมัติผ่านโมเดลภาษาธรรมชาติของ DL (Transformers) แอปพลิเคชันของเรามีการประมวลผลหนักและจำเป็นต้องมีการติดตั้งใช้จริงด้วยวิธีการที่มีประสิทธิภาพสูง เราได้ติดตั้ง DL เพื่อใช้จริงด้วยการอนุมานเวิร์กโหลดไปยังอินสแตนซ์ Amazon EC2 Inf1 ที่ทำงานด้วยโปรเซสเซอร์ AWS Inferentia อย่างราบรื่น อินสแตนซ์ Inf1 ตัวใหม่เพิ่มอัตราการโอนถ่ายข้อมูลที่เร็วขึ้น 2 เท่าไปยังอินสแตนซ์ที่ใช้ GPU และช่วยให้เราปรับปรุงเวิร์กโหลดในการอนุมาน

Numan Laanait และ Miro Mihaylov, PhD หัวหน้านักวิทยาศาสตร์ฝ่าย AI/ข้อมูลของ Anthem