ทำไมต้องใช้อินสแตนซ์ Amazon EC2 Trn2 และ UltraServer
อินสแตนซ์ Amazon EC2 Trn2 ซึ่งขับเคลื่อนโดยชิป AWS Trainium2 จำนวน 16 ชิปนั้นสร้างขึ้นสำหรับ AI ช่วยสร้างโดยเฉพาะและเป็นอินสแตนซ์ EC2 ที่มีประสิทธิภาพสูงสุดสำหรับการฝึกและใช้งานโมเดลที่มีพารามิเตอร์หลายร้อยพันล้านถึงล้านล้านกว่ารายการ อินสแตนซ์ Trn2 มีประสิทธิภาพต่อราคาดีกว่าอินสแตนซ์ EC2 P5e และ P5en รุ่นปัจจุบันที่ใช้ GPU ถึง 30-40% คุณจะได้รับประสิทธิภาพการฝึกและการอนุมานสุดล้ำสมัยไปพร้อม ๆ กับการลดต้นทุนเมื่อใช้อินสแตนซ์ Trn2 คุณจึงสามารถลดเวลาในการฝึก ทำซ้ำได้เร็วยิ่งขึ้น รวมถึงมอบประสบการณ์ที่ขับเคลื่อนด้วย AI แบบเรียลไทม์ คุณสามารถใช้อินสแตนซ์ Trn2 เพื่อฝึกและใช้งานโมเดล เช่น โมเดลภาษาขนาดใหญ่ (LLM), โมเดลหลายรูปแบบ และตัวแปลงข้อมูลการแพร่กระจาย เพื่อสร้างชุดแอปพลิเคชัน AI ช่วยสร้างรุ่นใหม่ได้
หากต้องการลดเวลาการฝึกและส่งมอบเวลาตอบสนองที่ล้ำหน้า (ความหน่วงต่อโทเค็น) ให้กับโมเดลที่ทันสมัยและเป็นที่ต้องการมากที่สุด คุณอาจต้องอาศัยการประมวลผลและหน่วยความจำมากกว่าที่อินสแตนซ์เดียวจะสามารถให้ได้ Trn2 UltraServers ใช้ NeuronLink ซึ่งเป็นการเชื่อมต่อระหว่างชิปที่เป็นกรรมสิทธิ์เฉพาะของเรา เพื่อเชื่อมต่อกับชิป Trainium2 จำนวน 64 ชิปในอินสแตนซ์ Trn2 รายการ โดยช่วยเพิ่มการประมวลผล หน่วยความจำ และแบนวิดท์เครือข่ายที่มีอยู่ในโหนดเดียวถึง 4 เท่า รวมถึงมอบประสิทธิภาพที่ล้ำหน้าบน AWS สำหรับเวิร์กโหลดดีปเลิร์นนิงและ AI ช่วยสร้าง สำหรับการอนุมาน UltraServer ให้เวลาตอบสนองได้ในระดับชั้นนำของอุตสาหกรรม จึงสร้างประสบการณ์แบบเรียลไทม์ได้ดีที่สุด และสำหรับการฝึกนั้น UltraServer ก็จะช่วยเพิ่มความเร็วและประสิทธิภาพการฝึกโมเดลด้วยการสื่อสารแบบรวมที่รวดเร็วขึ้นเพื่อการทำงานคู่ขนานของโมเดล โดยจะทำงานได้เร็วกว่าเมื่อเทียบกับอินสแตนซ์แบบสแตนด์อโลน
คุณสามารถเริ่มต้นใช้งานอินสแตนซ์ Trn2 และ Trn2 UltraServer ได้อย่างง่ายดายด้วยการสนับสนุนแบบเนทีฟสำหรับเฟรมเวิร์กแมชชีนเลิร์นนิง (ML) ยอดนิยมอย่าง PyTorch และ JAX
ประโยชน์
คุณสมบัติ
คำนิยมของลูกค้าและพาร์ทเนอร์
ต่อไปนี้คือตัวอย่างวิธีที่ลูกค้าและพาร์ทเนอร์วางแผนที่จะบรรลุเป้าหมายทางธุรกิจโดยใช้อินสแตนซ์ Amazon EC2 Trn2
-
Anthropic
ที่ Anthropic ผู้คนนับล้านอาศัย Claude ทุกวันในการทำงาน เรากำลังประกาศความก้าวหน้าหลักสองประการกับ AWS โดยประการแรกคือ “โหมดที่ได้รับการปรับปรุงเวลาแฝง” ใหม่สำหรับ Claude 3.5 Haiku ซึ่งทำงานได้เร็วกว่า 60% บน Trainium2 ผ่าน Amazon Bedrock และประการที่สองคือ Project Rainier ซึ่งเป็นคลัสเตอร์ใหม่ที่มีชิป Trainium2 หลายแสนชิปที่ส่งมอบ exaflops หลายร้อยตัว โดยมีขนาดใหญ่กว่าคลัสเตอร์ก่อนหน้านี้มากกว่า 5 เท่า Project Rainier จะช่วยส่งเสริมประสิทธิภาพทั้งด้านการศึกษาวิจัยและการปรับขนาดรุ่นใหม่ของเรา ซึ่งหมายถึงความชาญฉลาดที่มากขึ้น ราคาที่ต่ำลง และความเร็วที่รวดเร็วยิ่งขึ้นสำหรับลูกค้าของเรา ทั้งนี้ เราไม่เพียงสร้าง AI ที่รวดเร็วขึ้นเท่านั้น แต่เรากำลังสร้าง AI ที่น่าเชื่อถือที่ปรับขนาดได้อีกด้วย
Tom Brown หัวหน้าเจ้าหน้าที่ฝ่ายประมวลผลของ Anthropic -
Databricks
Mosaic AI ของ Databricks ช่วยให้องค์กรต่าง ๆ สามารถสร้างและนำระบบเอเจนต์ที่มีคุณภาพมาใช้ได้ ซึ่งสร้างสร้างขึ้นบน Data Lakehouse แบบเนทีฟ ช่วยทำให้ลูกค้าสามารถปรับแต่งโมเดลได้อย่างง่ายดายและปลอดภัยโดยใช้ข้อมูลองค์กรและส่งมอบผลลัพธ์ที่แม่นยำและเฉพาะโดเมนมากขึ้น ด้วยประสิทธิภาพสูงและคุ้มค่าของTrainium ทำให้ลูกค้าสามารถปรับขนาดการฝึกโมเดลเกี่ยวกับ Mosaic AI ได้ด้วยต้นทุนที่ต่ำลง ความพร้อมใช้งานของ Trainium2 จะเป็นประโยชน์ที่สำคัญสำหรับ Databricks และลูกค้า เนื่องจากความต้องการ Mosaic AI ยังคงเพิ่มขึ้นในทุกกลุ่มลูกค้าและทั่วโลก Databricks ซึ่งเป็นหนึ่งในบริษัทข้อมูลและ AI ที่ใหญ่ที่สุดในโลก วางแผนที่จะใช้ TRN2 เพื่อส่งมอบผลลัพธ์ที่ดีขึ้นและลด TCO สูงสุดถึง 30% สำหรับลูกค้า
Naveen Rao รองประธานฝ่าย AI ช่วยสร้างของ Databricks -
poolside
ที่ poolside เราตั้งใจสร้างโลกที่ AI จะช่วยขับเคลื่อนการทำงานที่มีคุณค่าทางเศรษฐกิจและความก้าวหน้าทางวิทยาศาสตร์โดยส่วนใหญ่ เราเชื่อว่าการพัฒนาซอฟต์แวร์จะเป็นความสามารถที่สำคัญอันดับแรกในนิวรัลเน็ตเวิร์กที่เข้าถึงความฉลาดระดับมนุษย์เนื่องจากเป็นโดเมนที่เราสามารถรวมวิธีการค้นหาและการเรียนรู้ได้ดีที่สุด เพื่อให้เป็นเช่นนั้น เรากำลังสร้างโมเดลพื้นฐาน, API และผู้ช่วยเพื่อนำพลังของ AI ช่วยสร้างขึ้นมาสู่มือของนักพัฒนา (หรือแป้นพิมพ์) กุญแจสำคัญในการเปิดใช้งานเทคโนโลยีนี้คือโครงสร้างพื้นฐานที่เราใช้ในการสร้างและเรียกใช้ผลิตภัณฑ์ ด้วย AWS Trainium2 ลูกค้าของเราจะสามารถปรับขนาดการใช้งาน poolside ได้ในอัตราส่วนการประเมินประสิทธิภาพต่อราคา ซึ่งแตกต่างจากตัวเร่ง AI อื่น ๆ นอกจากนี้ เรายังวางแผนที่จะฝึกโมเดลในอนาคตด้วย Trainium2 UltraServer โดยคาดว่าจะประหยัดค่าใช้จ่ายได้ถึง 40% เมื่อเทียบกับอินสแตนซ์ EC2 P5
Eiso Kant, CTO และผู้ร่วมก่อตั้งของ poolside -
Itaú Unibanco
วัตถุประสงค์ของ Itaú Unibanco คือการปรับปรุงความสัมพันธ์ของผู้คนกับเงิน สร้างผลกระทบเชิงบวกต่อชีวิตของผู้คนขณะที่ขยายโอกาสในการเปลี่ยนแปลง ที่ Itaú Unibanco เราเชื่อว่าลูกค้าแต่ละคนมีความเฉพาะตัว และเรามุ่งเน้นไปที่การตอบโจทย์ความต้องการผ่านเส้นทางแบบดิจิทัลที่ใช้งานง่าย ซึ่งใช้ประโยชน์จากพลังของ AI เพื่อปรับให้เข้ากับนิสัยของผู้บริโภคอย่างต่อเนื่อง
เราได้ทดสอบ AWS Trainium และ Inferentia ในงานต่าง ๆ ตั้งแต่การอนุมานมาตรฐานไปจนถึงแอปพลิเคชันที่ผ่านการปรับแต่ง ประสิทธิภาพของชิป AI เหล่านี้ช่วยให้เราสามารถบรรลุเป้าหมายสำคัญด้านการวิจัยและพัฒนาของเราได้ สำหรับงานอนุมานทั้งแบบแบทช์และออนไลน์ เราพบว่าอัตราการโอนถ่ายข้อมูลเพิ่มขึ้น 7 เท่าเมื่อเทียบกับ GPU ประสิทธิภาพที่เพิ่มขึ้นนี้กำลังขับเคลื่อนการขยายกรณีการใช้งานมากขึ้นทั่วทั้งองค์กร ชิป Trainium2 รุ่นใหม่ล่าสุดปลดล็อกฟีเจอร์ที่ล้ำสมัยสำหรับ GenAI และเปิดประตูสู่นวัตกรรมที่ Itau
Vitor Azeka หัวหน้าฝ่ายวิทยาศาสตร์ข้อมูลที่ Itaú Unibanco -
NinjaTech AI
Ninja เป็น AI Agent แบบ All-In-One เพื่อประสิทธิภาพการทำงานไม่จำกัด โดยเป็นการสมัครใช้งานง่ายเพียงครั้งเดียว ที่มาพร้อมกับสิทธิ์เข้าถึงโมเดล AI ที่ดีที่สุดในโลกได้ไม่จำกัด รวมถึงทักษะ AI ชั้นนำ เช่น การเขียน การเขียนโค้ด ระดมความคิด การสร้างรูปภาพ การวิจัยออนไลน์ Ninja เป็นแพลตฟอร์มเอเจนต์และมี “SuperAgent” ซึ่งใช้เอเจนต์แบบผสมผสานที่มีความแม่นยำระดับโลกเทียบเท่ากับ (และเหนือกว่าในบางหมวดหมู่) โมเดลพื้นฐานแนวชายแดน เทคโนโลยี Agentic ของ Ninja ต้องการตัวเร่งความเร็วที่มีประสิทธิภาพสูงสุด เพื่อมอบประสบการณ์แบบเรียลไทม์ที่ไม่เหมือนใครที่ลูกค้าคาดหวัง
เรารู้สึกตื่นเต้นอย่างยิ่งสำหรับการเปิดตัว AWS TRN2 เพราะเราเชื่อว่าจะมอบประสิทธิภาพต้นทุนต่อโทเค็นที่ดีที่สุดและความเร็วที่เร็วที่สุดในปัจจุบันสำหรับ Ninja LLM โมเดลหลักของเราซึ่งอิงจาก Llama 3.1 405B เป็นเรื่องที่น่าทึ่งที่ได้เห็นเวลาแฝงที่ต่ำของ Trn2 ควบคู่ไปกับราคาที่แข่งขันได้และความพร้อมใช้งานตามความต้องการ ซึ่งเราตื่นเต้นกับการมาถึงของ Trn2 เป็นอย่างมาก
Babak Pahlavan ผู้ก่อตั้งและ CEO ของ NinjaTech AI -
Ricoh
ทีมแมชชีนเลิร์นนิงของ RICOH พัฒนาโซลูชันในสถานที่ทำงานและบริการเปลี่ยนผ่านสู่ระบบดิจิทัลที่ออกแบบมาเพื่อจัดการและเพิ่มประสิทธิภาพโฟลว์ข้อมูลในโซลูชันองค์กรของเรา
การย้ายไปยังอินสแตนซ์ Trn1 นั้นง่ายดายและเรียบง่าย เราสามารถฝึกพารามิเตอร์ LLM 13B ของเราล่วงหน้าได้ในเวลาเพียง 8 วัน โดยใช้คลัสเตอร์ของชิป Trainium จำนวน 4,096 ชิป! หลังจากความสำเร็จที่เราได้รับจากการใช้โมเดลขนาดเล็ก เราได้ปรับแต่ง LLM ใหม่ที่ใหญ่กว่าซึ่งใช้ Llama-3-Swallow-70B และใช้ประโยชน์จาก Trainium เราจึงสามารถลดต้นทุนการฝึกได้ 50% และปรับปรุงประสิทธิภาพการใช้พลังงาน 25% เมื่อเทียบกับการใช้เครื่อง GPU ล่าสุดใน AWS เรารู้สึกตื่นเต้นที่จะใช้ประโยชน์จากชิป AWS AI และ Trainium2 รุ่นใหม่ล่าสุดเพื่อมอบประสิทธิภาพที่ดีที่สุดให้กับลูกค้าของเราโดยมีต้นทุนที่ต่ำที่สุด
Yoshiaki Umetsu ผู้อำนวยการศูนย์พัฒนาเทคโนโลยีดิจิทัลของ Ricoh -
PyTorch
สิ่งที่ฉันชอบมากที่สุดเกี่ยวกับไลบรารี AWS Neuron NxD Inference คือวิธีการรวมเข้ากับโมเดล PyTorch ได้อย่างราบรื่น แนวทางของ NxD นั้นใช้งานง่ายและไม่ซับซ้อน ทีมงานของเราสามารถเริ่มต้นใช้งานโมเดล HuggingFace PyTorch ได้ด้วยการเปลี่ยนแปลงโค้ดให้น้อยที่สุดในกรอบเวลาอันสั้น การเปิดใช้งานฟีเจอร์ขั้นสูงเช่นการสร้างแบตช์อย่างต่อเนื่องและการถอดรหัสเก็งกำไรนั้นไม่ซับซ้อน ความสะดวกในการใช้งานนี้ช่วยเพิ่มประสิทธิภาพการทำงานของนักพัฒนา ซึ่งเปิดโอกาสให้ทีมสามารถโฟกัสที่นวัตกรรมมากขึ้นและลดปัญหาในการผสานการทำงาน
Hamid Shojanazeri ผู้นำด้านวิศวกรรมพาร์ทเนอร์ PyTorch ของ Meta -
Refact.ai
Refact.ai นำเสนอเครื่องมือ AI ที่มีความครอบคลุม เช่น การเติมโค้ดอัตโนมัติที่ขับเคลื่อนโดย Retrieval-Augmented Generation (RAG) การให้คำแนะนำที่แม่นยำยิ่งขึ้น รวมถึงการแชทที่รับรู้บริบทโดยใช้ทั้งโมเดลที่เป็นกรรมสิทธิ์และโมเดลแบบโอเพนซอร์ส
ลูกค้าได้รับประสิทธิภาพสูงขึ้นถึง 20% และโทเค็นที่สูงกว่า 1.5 เท่าต่อดอลลาร์ด้วยอินสแตนซ์ EC2 Inf2 เมื่อเทียบกับอินสแตนซ์ EC2 G5 ความสามารถในการปรับแต่งของ Refact.ai ช่วยเพิ่มความสามารถของลูกค้าในการทำความเข้าใจและปรับให้เข้ากับฐานโค้ดและสภาพแวดล้อมที่เป็นเอกลักษณ์ขององค์กร นอกจากนี้ เรายังตื่นเต้นที่จะนำเสนอความสามารถของ Trainium2 ซึ่งจะนำการประมวลผลที่รวดเร็วและมีประสิทธิภาพมากขึ้นให้กับเวิร์กโฟลว์ของเรา เทคโนโลยีขั้นสูงนี้จะช่วยให้ลูกค้าของเราสามารถเร่งความเร็วให้กับกระบวนการพัฒนาซอฟต์แวร์ได้โดยการเพิ่มประสิทธิภาพของนักพัฒนาซอฟต์แวร์ในขณะที่ยังคงรักษามาตรฐานความปลอดภัยที่เข้มงวดสำหรับฐานโค้ดของตน
Oleg Klimov ประธานเจ้าหน้าที่บริหารและผู้ก่อตั้งของ Refact.ai -
Karakuri Inc.
KARAKURI สร้างเครื่องมือ AI เพื่อปรับปรุงประสิทธิภาพของการสนับสนุนลูกค้าบนเว็บและลดความซับซ้อนให้กับประสบการณ์ของลูกค้า เครื่องมือเหล่านี้ประกอบด้วยแชทบอท AI ที่ติดตั้งฟังก์ชัน AI ช่วยสร้าง เครื่องมือรวมคำถามที่พบบ่อยไว้ในที่เดียว และเครื่องมือตอบกลับอีเมล ซึ่งทั้งหมดนี้ช่วยปรับปรุงประสิทธิภาพและคุณภาพการสนับสนุนลูกค้า เราประสบความสำเร็จในการฝึก KARAKURI LM 8x7B Chat v0.1 โดยใช้ AWS Trainium สำหรับสตาร์ทอัพ เราจำเป็นต้องเพิ่มประสิทธิภาพเวลาในการสร้างและค่าใช้จ่ายที่จำเป็นในการฝึกอบรม LLM เช่นเดียวกับเรา ด้วยการสนับสนุนของ AWS Trainium และ AWS Team เราจึงสามารถพัฒนา LLM ระดับการปฏิบัติได้ในระยะเวลาอันสั้น นอกจากนี้ เรายังสามารถสร้างบริการอนุมานที่รวดเร็วและคุ้มค่าได้อีกด้วยเมื่อใช้ AWS Inferentia เราตื่นเต้นกับ Trainium2 เนื่องจากจะช่วยปฏิวัติกระบวนการฝึกของเรา ซึ่งลดเวลาการฝึกของเราลง 2 เท่า และเพิ่มประสิทธิภาพไปอีกขั้น!
Tomofumi Nakayama ผู้ร่วมก่อตั้งของ Karakuri Inc. -
Stockmark Inc.
ด้วยพันธกิจ "การคิดค้นกลไกการสร้างมูลค่าเพิ่มและส่งเสริมมนุษยชาติใหม่" Stockmark ช่วยให้บริษัทต่าง ๆ มากมายสร้างและพัฒนาธุรกิจที่เป็นนวัตกรรมด้วยการนำเสนอเทคโนโลยีการประมวลผลภาษาธรรมชาติที่ล้ำสมัย บริการวิเคราะห์และรวบรวมข้อมูลใหม่ของ Stockmark ที่เรียกว่า Anews and SAT ซึ่งเป็นบริการจัดโครงสร้างข้อมูลที่ปรับปรุงการใช้ AI ช่วยสร้างอย่างมาก โดยการจัดระเบียบข้อมูลทุกรูปแบบที่จัดเก็บไว้ในองค์กร ทำให้เราต้องพิจารณาอีกวิธีที่เราสร้างและปรับใช้โมเดลเพื่อสนับสนุนผลิตภัณฑ์เหล่านี้ ด้วยตัวเร่ง Trainium 256 ตัว เราได้พัฒนาและเปิดตัว stockmark-13b ซึ่งเป็นโมเดลภาษาขนาดใหญ่ที่มีพารามิเตอร์ 13 พันล้านรายการ ซึ่งได้รับการฝึกล่วงหน้าตั้งแต่เริ่มต้นบนชุดข้อมูลคอร์ปัสภาษาญี่ปุ่นที่มีโทเค็น 220 พันล้านรายการ อินสแตนซ์ Trn1 ช่วยให้เราลดต้นทุนการฝึกได้ถึง 20% เมื่อใช้ประโยชน์จาก Trainium เราจึงประสบความสำเร็จในการพัฒนา LLM ซึ่งสามารถตอบคำถามสำคัญทางธุรกิจสำหรับมืออาชีพด้วยความแม่นยำและความรวดเร็วอย่างที่ไม่เคยมีมาก่อน ความสำเร็จนี้เป็นสิ่งที่โดดเด่นเป็นพิเศษเนื่องจากปัญหาที่บริษัทต่าง ๆ ต้องเผชิญในการสร้างทรัพยากรเชิงประมวลผลที่เพียงพอสำหรับการพัฒนาโมเดล ด้วยความเร็วและการลดต้นทุนที่น่าประทับใจของอินสแตนซ์ Trn1 เราตื่นเต้นที่ได้รับประโยชน์เพิ่มเติมที่ Trainium2 จะนำมาสู่เวิร์กโฟลว์และลูกค้าของเรา
Kosuke Arima, CTO และผู้ร่วมก่อตั้งของ Stockmark Inc. -
Brave
Brave เป็นเบราว์เซอร์และเครื่องมือค้นหาอิสระสำหรับการจัดลำดับความสำคัญความเป็นส่วนตัวและความปลอดภัยของผู้ใช้โดยเฉพาะ ด้วยผู้ใช้มากกว่า 70 ล้านคน เราส่งมอบการป้องกันระดับชั้นนำของวงการที่ทำให้เว็บปลอดภัยและใช้งานง่ายขึ้น Brave ยังคงมุ่งมั่นที่จะให้ความสำคัญกับความดป็นส่วนตัว ความปลอดภัย และความสะดวกสบายเป็นอันดับแรก ซึ่งแตกต่างจากแพลตฟอร์มอื่น ๆ ที่เปลี่ยนไปจากแนวทางที่ให้ความสำคัญกับผู้ใช้เป็นหลัก ฟีเจอร์ที่สำคัญ ได้แก่ การบล็อกสคริปต์และตัวติดตามที่เป็นอันตราย ข้อมูลสรุปหน้าเว็บที่มีการช่วยเหลือจาก AI ซึ่งขับเคลื่อนโดย LLM, บริการ VPN ในตัว และอื่น ๆ อีกมากมาย เรามุ่งมั่นที่จะเพิ่มความเร็วและความคุ้มค่าของบริการค้นหาและโมเดล AI ของเราอย่างต่อเนื่อง เพื่อสนับสนุนสิ่งนี้ เราตื่นเต้นที่จะใช้ประโยชน์จากความสามารถล่าสุดของชิป AWS AI รวมถึง Trainium2 เพื่อปรับปรุงประสบการณ์ผู้ใช้ขณะที่เราปรับขนาดเพื่อจัดการกับการสืบค้นนับพันล้านรายการต่อเดือน
Subu Sathyanarayana รองประธานฝ่ายวิศวกรรมของ Brave Software -
Anyscale
Anyscale เป็นบริษัทที่อยู่เบื้องหลัง Ray ซึ่งเป็นเอนจินการประมวลผล AI ที่กระตุ้นให้เกิดความคิดริเริ่มด้าน ML และ AI ช่วยสร้างสำหรับองค์กร ด้วยแพลตฟอร์ม AI แบบรวมของ Anyscale ที่ขับเคลื่อนโดย RayTurbo ลูกค้าจึงได้รับการประมวลผลข้อมูลที่รวดเร็วขึ้นถึง 4.5 เท่า, การอนุมานแบบแบทช์ที่มีต้นทุนต่ำกว่าถึง 10 เท่าด้วย LLM, การปรับขนาดที่เร็วขึ้นถึง 5 เท่า, การทำซ้ำที่รวดเร็วขึ้นถึง 12 เท่า และการประหยัดค่าใช้จ่าย 50% สำหรับการอนุมานโมเดลออนไลน์โดยการเพิ่มประสิทธิภาพการใช้ทรัพยากร
ที่ Anyscale เรามุ่งมั่นที่จะเพิ่มศักยภาพห้กับองค์กรด้วยเครื่องมือที่ดีที่สุดในการปรับขนาดเวิร์กโหลด AI อย่างมีประสิทธิภาพและคุ้มค่า ด้วยการรองรับชิป AWS Trainium และ Inferentia แบบเนทีฟ ซึ่งขับเคลื่อนโดยรันไทม์ RayTurbo ลูกค้าของเราจึงสามารถเข้าถึงตัวเลือกที่มีประสิทธิภาพสูงและคุ้มค่าสำหรับการฝึกและให้บริการโมเดล ตอนนี้เรารู้สึกตื่นเต้นที่จะร่วมมือกับ AWS ในด้าน Trainium2 ซึ่งเป็นการปลดล็อกโอกาสใหม่ ๆ ให้กับลูกค้าในการสร้างสรรค์สิ่งใหม่อย่างรวดเร็ว และมอบประสบการณ์ AI พลิกโฉมวงการที่มีประสิทธิภาพสูง
Robert Nishihara ผู้ร่วมก่อตั้งของ Anyscale -
Datadog
Datadog ซึ่งเป็นแพลตฟอร์มด้านข้อมูลการสังเกตและการรักษาความปลอดภัยสำหรับแอปพลิเคชันระบบคลาวด์ ให้บริการ AWS Trainium และ Inferentia Monitoring แก่ลูกค้าเพื่อเพิ่มประสิทธิภาพโมเดล ปรับปรุงประสิทธิภาพ และลดต้นทุน การผสานรวมของ Datadog มอบการแสดงผลอย่างเต็มรูปแบบที่เกี่ยวกับการดำเนินงาน ML และประสิทธิภาพชิปพื้นฐาน ช่วยให้สามารถแก้ไขปัญหาเชิงรุกและปรับขนาดโครงสร้างพื้นฐานได้อย่างราบรื่น เราตื่นเต้นที่จะขยายความร่วมมือของเรากับ AWS ในด้านการนำ AWS Trainium2 มาใช้ ซึ่งช่วยให้ผู้ใช้สามารถลดต้นทุนโครงสร้างพื้นฐาน AI ได้ถึง 50% และเพิ่มประสิทธิภาพการฝึกและการปรับใช้โมเดล
Yrieix Garnier รองประธานฝ่ายบริษัทผลิตภัณฑ์ของ Datadog -
Hugging Face
Hugging Face เป็นแพลตฟอร์มเปิดชั้นนำสำหรับผู้สร้าง AI โดยมีโมเดล ชุดข้อมูล และแอปพลิเคชัน AI มากกว่า 2 ล้านแบบที่แชร์โดยชุมชนนักวิจัย นักวิทยาศาสตร์ข้อมูล วิศวกรแมชชีนเลิร์นนิง และนักพัฒนาซอฟต์แวร์มากกว่า 5 ล้านคน เราได้ร่วมมือกับ AWS ในช่วงสองสามปีที่ผ่านมา ทำให้นักพัฒนาสามารถสัมผัสประสิทธิภาพและประโยชน์ด้านต้นทุนของ AWS Inferentia และ Trainium ได้ง่ายขึ้นผ่านไลบรารีโอเพนซอร์ส Optimum Neuron ซึ่งผสานรวมอยู่ในตำแหน่งข้อมูลการอนุมานของ Hugging Face และปรับให้เหมาะสมในบริการปรับใช้ด้วยตนเองสำหรับ HUGS ใหม่ของเรา ซึ่งมีให้ใช้งานใน AWS Marketplace ด้วยการเปิดตัว Trainium2 ผู้ใช้ของเราจะสามารถเข้าถึงประสิทธิภาพที่สูงขึ้นเพื่อพัฒนาและปรับใช้โมเดลได้เร็วยิ่งขึ้น
Jeff Boudier หัวหน้าฝ่ายผลิตภัณฑ์ของ Hugging Face -
Lightning AI
Lightning AI ซึ่งเป็นผู้สร้าง PyTorch Lightning และ Lightning Studios มีแพลตฟอร์มการพัฒนา AI แบบครบวงจรที่ใช้งานง่ายที่สุดสำหรับ AI ระดับองค์กร Lightning มีเครื่องมือโค้ดแบบเต็มรูปแบบ แบบใช้โค้ดน้อย และแบบไม่มีโค้ดเพื่อสร้างเอเจนต์ แอปพลิเคชัน AI และโซลูชัน AI ช่วยสร้างอย่างรวดเร็ว โดยได้รับการออกแบบมาเพื่อความยืดหยุ่น ซึ่งใช้งานได้อย่างราบรื่นบนระบบคลาวด์ของคุณหรือของเราโดยใช้ประโยชน์จากความเชี่ยวชาญและการสนับสนุนของชุมชนนักพัฒนาที่แข็งแกร่งกว่า 3 ล้านคน
ตอนนี้ Lightning มีการสนับสนุนสำหรับชิป AWS AI, Trainium และ Inferentia ซึ่งรวมอยู่ใน Lightning Studios และเครื่องมือโอเพนซอร์สของเรา เช่น PyTorch Lightning, Fabric และ LitServe โดยช่วยให้ผู้ใช้ฝึกล่วงหน้า ปรับแต่ง และปรับใช้ในทุกขนาดได้อย่างราบรื่น ซึ่งจะปรับต้นทุน ความพร้อมใช้งาน และประสิทธิภาพให้เหมาะสมด้วยโดยที่มีค่าใช้จ่ายจากการปรับเปลี่ยนเป็นศูนย์ รวมถึงประโยชน์ด้านประสิทธิภาพและต้นทุนของชิป AWS AI รวมถึงชิป Trainium2 รุ่นใหม่ล่าสุด ซึ่งมอบประสิทธิภาพที่สูงขึ้นด้วยต้นทุนที่ลดลง
Luca Antiga, CTO ของ Lightning AI -
Domino Data Lab
Domino จัดการอาร์ทิแฟกต์วิทยาศาสตร์ข้อมูลทั้งหมด รวมถึงโครงสร้างพื้นฐาน ข้อมูล และบริการบน AWS ในทุกสภาพแวดล้อม โดยเสริม Amazon SageMaker ด้วยความสามารถในการกำกับดูแลและการทำงานร่วมกันเพื่อสนับสนุนทีมงานวิทยาศาสตร์ข้อมูลขององค์กร Domino พร้อมใช้งานผ่าน AWS Marketplace ในรูปแบบ SaaS หรือแบบจัดการด้วยตนเอง
องค์กรชั้นนำจะต้องสร้างสมดุลระหว่างความซับซ้อนทางเทคนิค ต้นทุน และการกำกับดูแล โดยต้องเชี่ยวชาญตัวเลือก AI ที่ครอบคลุม เพื่อให้ได้เปรียบทางการแข่งขัน ที่ Domino เรามุ่งมั่นที่จะให้ลูกค้าเข้าถึงเทคโนโลยีที่ล้ำสมัย เนื่องจากการประมวลผลเป็นคอขวดสำหรับนวัตกรรมใหม่ ๆ มากมาย เราจึงภูมิใจที่จะให้ลูกค้าสามารถเข้าถึง Trainium2 เพื่อให้พวกเขาสามารถฝึกและใช้งานโมเดลที่มีประสิทธิภาพสูงขึ้น ค่าใช้จ่ายต่ำลง และประสิทธิภาพการใช้พลังงานที่ดีขึ้น
Nick Elprin, CEO และผู้ร่วมก่อตั้งของ Domino Data Lab
เริ่มต้นใช้งาน
รายละเอียดผลิตภัณฑ์
ขนาดของอินสแตนซ์ | มีให้ใช้งานใน EC2 UltraServers | ชิป Trainium2 | Accelerator หน่วยความจำ |
vCPU | หน่วยความจำ (TB) |
พื้นที่เก็บข้อมูลอินสแตนซ์ (TB) | แบนวิดท์เครือข่าย (Tbps) | แบนด์วิดท์ EBS (Gbps) |
trn2.48xlarge | ใช้ไม่ได้ | 16 | 1.5 TB | 192 | 2 TB | 4 x 1.92 NVMe SSD | 3.2 | 80 |
trn2u.48xlarge | ใช้ได้ (แสดงตัวอย่าง) | 16 | 1.5 TB | 192 | 2 TB | 4 x 1.92 NVMe SSD | 3.2 | 80 |