อินสแตนซ์และ UltraServers ของ Amazon EC2 Trn2

การประมวลผล EC2 ที่ทรงพลังที่สุดสำหรับการฝึกและการอนุมาน AI ช่วยสร้าง

ทำไมต้องใช้อินสแตนซ์ Amazon EC2 Trn2 และ UltraServer

อินสแตนซ์ Amazon EC2 Trn2 ซึ่งขับเคลื่อนโดยชิป AWS Trainium2 จำนวน 16 ชิปนั้นสร้างขึ้นสำหรับ AI ช่วยสร้างโดยเฉพาะและเป็นอินสแตนซ์ EC2 ที่มีประสิทธิภาพสูงสุดสำหรับการฝึกและใช้งานโมเดลที่มีพารามิเตอร์หลายร้อยพันล้านถึงล้านล้านกว่ารายการ อินสแตนซ์ Trn2 มีประสิทธิภาพต่อราคาดีกว่าอินสแตนซ์ EC2 P5e และ P5en รุ่นปัจจุบันที่ใช้ GPU ถึง 30-40% คุณจะได้รับประสิทธิภาพการฝึกและการอนุมานสุดล้ำสมัยไปพร้อม ๆ กับการลดต้นทุนเมื่อใช้อินสแตนซ์ Trn2 คุณจึงสามารถลดเวลาในการฝึก ทำซ้ำได้เร็วยิ่งขึ้น รวมถึงมอบประสบการณ์ที่ขับเคลื่อนด้วย AI แบบเรียลไทม์ คุณสามารถใช้อินสแตนซ์ Trn2 เพื่อฝึกและใช้งานโมเดล เช่น โมเดลภาษาขนาดใหญ่ (LLM), โมเดลหลายรูปแบบ และตัวแปลงข้อมูลการแพร่กระจาย เพื่อสร้างชุดแอปพลิเคชัน AI ช่วยสร้างรุ่นใหม่ได้

หากต้องการลดเวลาการฝึกและส่งมอบเวลาตอบสนองที่ล้ำหน้า (ความหน่วงต่อโทเค็น) ให้กับโมเดลที่ทันสมัยและเป็นที่ต้องการมากที่สุด คุณอาจต้องอาศัยการประมวลผลและหน่วยความจำมากกว่าที่อินสแตนซ์เดียวจะสามารถให้ได้ Trn2 UltraServers ใช้ NeuronLink ซึ่งเป็นการเชื่อมต่อระหว่างชิปที่เป็นกรรมสิทธิ์เฉพาะของเรา เพื่อเชื่อมต่อกับชิป Trainium2 จำนวน 64 ชิปในอินสแตนซ์ Trn2 รายการ โดยช่วยเพิ่มการประมวลผล หน่วยความจำ และแบนวิดท์เครือข่ายที่มีอยู่ในโหนดเดียวถึง 4 เท่า รวมถึงมอบประสิทธิภาพที่ล้ำหน้าบน AWS สำหรับเวิร์กโหลดดีปเลิร์นนิงและ AI ช่วยสร้าง สำหรับการอนุมาน UltraServer ให้เวลาตอบสนองได้ในระดับชั้นนำของอุตสาหกรรม จึงสร้างประสบการณ์แบบเรียลไทม์ได้ดีที่สุด และสำหรับการฝึกนั้น UltraServer ก็จะช่วยเพิ่มความเร็วและประสิทธิภาพการฝึกโมเดลด้วยการสื่อสารแบบรวมที่รวดเร็วขึ้นเพื่อการทำงานคู่ขนานของโมเดล โดยจะทำงานได้เร็วกว่าเมื่อเทียบกับอินสแตนซ์แบบสแตนด์อโลน

คุณสามารถเริ่มต้นใช้งานอินสแตนซ์ Trn2 และ Trn2 UltraServer ได้อย่างง่ายดายด้วยการสนับสนุนแบบเนทีฟสำหรับเฟรมเวิร์กแมชชีนเลิร์นนิง (ML) ยอดนิยมอย่าง PyTorch และ JAX

ประโยชน์

คุณสมบัติ

คำนิยมของลูกค้าและพาร์ทเนอร์

ต่อไปนี้คือตัวอย่างวิธีที่ลูกค้าและพาร์ทเนอร์วางแผนที่จะบรรลุเป้าหมายทางธุรกิจโดยใช้อินสแตนซ์ Amazon EC2 Trn2

  • Anthropic

    ที่ Anthropic ผู้คนนับล้านอาศัย Claude ทุกวันในการทำงาน เรากำลังประกาศความก้าวหน้าหลักสองประการกับ AWS โดยประการแรกคือ “โหมดที่ได้รับการปรับปรุงเวลาแฝง” ใหม่สำหรับ Claude 3.5 Haiku ซึ่งทำงานได้เร็วกว่า 60% บน Trainium2 ผ่าน Amazon Bedrock และประการที่สองคือ Project Rainier ซึ่งเป็นคลัสเตอร์ใหม่ที่มีชิป Trainium2 หลายแสนชิปที่ส่งมอบ exaflops หลายร้อยตัว โดยมีขนาดใหญ่กว่าคลัสเตอร์ก่อนหน้านี้มากกว่า 5 เท่า Project Rainier จะช่วยส่งเสริมประสิทธิภาพทั้งด้านการศึกษาวิจัยและการปรับขนาดรุ่นใหม่ของเรา ซึ่งหมายถึงความชาญฉลาดที่มากขึ้น ราคาที่ต่ำลง และความเร็วที่รวดเร็วยิ่งขึ้นสำหรับลูกค้าของเรา ทั้งนี้ เราไม่เพียงสร้าง AI ที่รวดเร็วขึ้นเท่านั้น แต่เรากำลังสร้าง AI ที่น่าเชื่อถือที่ปรับขนาดได้อีกด้วย

    Tom Brown หัวหน้าเจ้าหน้าที่ฝ่ายประมวลผลของ Anthropic
  • Databricks

    Mosaic AI ของ Databricks ช่วยให้องค์กรต่าง ๆ สามารถสร้างและนำระบบเอเจนต์ที่มีคุณภาพมาใช้ได้ ซึ่งสร้างสร้างขึ้นบน Data Lakehouse แบบเนทีฟ ช่วยทำให้ลูกค้าสามารถปรับแต่งโมเดลได้อย่างง่ายดายและปลอดภัยโดยใช้ข้อมูลองค์กรและส่งมอบผลลัพธ์ที่แม่นยำและเฉพาะโดเมนมากขึ้น ด้วยประสิทธิภาพสูงและคุ้มค่าของTrainium ทำให้ลูกค้าสามารถปรับขนาดการฝึกโมเดลเกี่ยวกับ Mosaic AI ได้ด้วยต้นทุนที่ต่ำลง ความพร้อมใช้งานของ Trainium2 จะเป็นประโยชน์ที่สำคัญสำหรับ Databricks และลูกค้า เนื่องจากความต้องการ Mosaic AI ยังคงเพิ่มขึ้นในทุกกลุ่มลูกค้าและทั่วโลก Databricks ซึ่งเป็นหนึ่งในบริษัทข้อมูลและ AI ที่ใหญ่ที่สุดในโลก วางแผนที่จะใช้ TRN2 เพื่อส่งมอบผลลัพธ์ที่ดีขึ้นและลด TCO สูงสุดถึง 30% สำหรับลูกค้า

    Naveen Rao รองประธานฝ่าย AI ช่วยสร้างของ Databricks
  • poolside

    ที่ poolside เราตั้งใจสร้างโลกที่ AI จะช่วยขับเคลื่อนการทำงานที่มีคุณค่าทางเศรษฐกิจและความก้าวหน้าทางวิทยาศาสตร์โดยส่วนใหญ่ เราเชื่อว่าการพัฒนาซอฟต์แวร์จะเป็นความสามารถที่สำคัญอันดับแรกในนิวรัลเน็ตเวิร์กที่เข้าถึงความฉลาดระดับมนุษย์เนื่องจากเป็นโดเมนที่เราสามารถรวมวิธีการค้นหาและการเรียนรู้ได้ดีที่สุด เพื่อให้เป็นเช่นนั้น เรากำลังสร้างโมเดลพื้นฐาน, API และผู้ช่วยเพื่อนำพลังของ AI ช่วยสร้างขึ้นมาสู่มือของนักพัฒนา (หรือแป้นพิมพ์) กุญแจสำคัญในการเปิดใช้งานเทคโนโลยีนี้คือโครงสร้างพื้นฐานที่เราใช้ในการสร้างและเรียกใช้ผลิตภัณฑ์ ด้วย AWS Trainium2 ลูกค้าของเราจะสามารถปรับขนาดการใช้งาน poolside ได้ในอัตราส่วนการประเมินประสิทธิภาพต่อราคา ซึ่งแตกต่างจากตัวเร่ง AI อื่น ๆ นอกจากนี้ เรายังวางแผนที่จะฝึกโมเดลในอนาคตด้วย Trainium2 UltraServer โดยคาดว่าจะประหยัดค่าใช้จ่ายได้ถึง 40% เมื่อเทียบกับอินสแตนซ์ EC2 P5

    Eiso Kant, CTO และผู้ร่วมก่อตั้งของ poolside
  • Itaú Unibanco

    วัตถุประสงค์ของ Itaú Unibanco คือการปรับปรุงความสัมพันธ์ของผู้คนกับเงิน สร้างผลกระทบเชิงบวกต่อชีวิตของผู้คนขณะที่ขยายโอกาสในการเปลี่ยนแปลง ที่ Itaú Unibanco เราเชื่อว่าลูกค้าแต่ละคนมีความเฉพาะตัว และเรามุ่งเน้นไปที่การตอบโจทย์ความต้องการผ่านเส้นทางแบบดิจิทัลที่ใช้งานง่าย ซึ่งใช้ประโยชน์จากพลังของ AI เพื่อปรับให้เข้ากับนิสัยของผู้บริโภคอย่างต่อเนื่อง

    เราได้ทดสอบ AWS Trainium และ Inferentia ในงานต่าง ๆ ตั้งแต่การอนุมานมาตรฐานไปจนถึงแอปพลิเคชันที่ผ่านการปรับแต่ง ประสิทธิภาพของชิป AI เหล่านี้ช่วยให้เราสามารถบรรลุเป้าหมายสำคัญด้านการวิจัยและพัฒนาของเราได้ สำหรับงานอนุมานทั้งแบบแบทช์และออนไลน์ เราพบว่าอัตราการโอนถ่ายข้อมูลเพิ่มขึ้น 7 เท่าเมื่อเทียบกับ GPU ประสิทธิภาพที่เพิ่มขึ้นนี้กำลังขับเคลื่อนการขยายกรณีการใช้งานมากขึ้นทั่วทั้งองค์กร ชิป Trainium2 รุ่นใหม่ล่าสุดปลดล็อกฟีเจอร์ที่ล้ำสมัยสำหรับ GenAI และเปิดประตูสู่นวัตกรรมที่ Itau

    Vitor Azeka หัวหน้าฝ่ายวิทยาศาสตร์ข้อมูลที่ Itaú Unibanco
  • NinjaTech AI

    Ninja เป็น AI Agent แบบ All-In-One เพื่อประสิทธิภาพการทำงานไม่จำกัด โดยเป็นการสมัครใช้งานง่ายเพียงครั้งเดียว ที่มาพร้อมกับสิทธิ์เข้าถึงโมเดล AI ที่ดีที่สุดในโลกได้ไม่จำกัด รวมถึงทักษะ AI ชั้นนำ เช่น การเขียน การเขียนโค้ด ระดมความคิด การสร้างรูปภาพ การวิจัยออนไลน์ Ninja เป็นแพลตฟอร์มเอเจนต์และมี “SuperAgent” ซึ่งใช้เอเจนต์แบบผสมผสานที่มีความแม่นยำระดับโลกเทียบเท่ากับ (และเหนือกว่าในบางหมวดหมู่) โมเดลพื้นฐานแนวชายแดน เทคโนโลยี Agentic ของ Ninja ต้องการตัวเร่งความเร็วที่มีประสิทธิภาพสูงสุด เพื่อมอบประสบการณ์แบบเรียลไทม์ที่ไม่เหมือนใครที่ลูกค้าคาดหวัง 

    เรารู้สึกตื่นเต้นอย่างยิ่งสำหรับการเปิดตัว AWS TRN2 เพราะเราเชื่อว่าจะมอบประสิทธิภาพต้นทุนต่อโทเค็นที่ดีที่สุดและความเร็วที่เร็วที่สุดในปัจจุบันสำหรับ Ninja LLM โมเดลหลักของเราซึ่งอิงจาก Llama 3.1 405B เป็นเรื่องที่น่าทึ่งที่ได้เห็นเวลาแฝงที่ต่ำของ Trn2 ควบคู่ไปกับราคาที่แข่งขันได้และความพร้อมใช้งานตามความต้องการ ซึ่งเราตื่นเต้นกับการมาถึงของ Trn2 เป็นอย่างมาก

    Babak Pahlavan ผู้ก่อตั้งและ CEO ของ NinjaTech AI
  • Ricoh

    ทีมแมชชีนเลิร์นนิงของ RICOH พัฒนาโซลูชันในสถานที่ทำงานและบริการเปลี่ยนผ่านสู่ระบบดิจิทัลที่ออกแบบมาเพื่อจัดการและเพิ่มประสิทธิภาพโฟลว์ข้อมูลในโซลูชันองค์กรของเรา

    การย้ายไปยังอินสแตนซ์ Trn1 นั้นง่ายดายและเรียบง่าย เราสามารถฝึกพารามิเตอร์ LLM 13B ของเราล่วงหน้าได้ในเวลาเพียง 8 วัน โดยใช้คลัสเตอร์ของชิป Trainium จำนวน 4,096 ชิป! หลังจากความสำเร็จที่เราได้รับจากการใช้โมเดลขนาดเล็ก เราได้ปรับแต่ง LLM ใหม่ที่ใหญ่กว่าซึ่งใช้ Llama-3-Swallow-70B และใช้ประโยชน์จาก Trainium เราจึงสามารถลดต้นทุนการฝึกได้ 50% และปรับปรุงประสิทธิภาพการใช้พลังงาน 25% เมื่อเทียบกับการใช้เครื่อง GPU ล่าสุดใน AWS เรารู้สึกตื่นเต้นที่จะใช้ประโยชน์จากชิป AWS AI และ Trainium2 รุ่นใหม่ล่าสุดเพื่อมอบประสิทธิภาพที่ดีที่สุดให้กับลูกค้าของเราโดยมีต้นทุนที่ต่ำที่สุด

    Yoshiaki Umetsu ผู้อำนวยการศูนย์พัฒนาเทคโนโลยีดิจิทัลของ Ricoh
  • PyTorch

    สิ่งที่ฉันชอบมากที่สุดเกี่ยวกับไลบรารี AWS Neuron NxD Inference คือวิธีการรวมเข้ากับโมเดล PyTorch ได้อย่างราบรื่น แนวทางของ NxD นั้นใช้งานง่ายและไม่ซับซ้อน ทีมงานของเราสามารถเริ่มต้นใช้งานโมเดล HuggingFace PyTorch ได้ด้วยการเปลี่ยนแปลงโค้ดให้น้อยที่สุดในกรอบเวลาอันสั้น การเปิดใช้งานฟีเจอร์ขั้นสูงเช่นการสร้างแบตช์อย่างต่อเนื่องและการถอดรหัสเก็งกำไรนั้นไม่ซับซ้อน ความสะดวกในการใช้งานนี้ช่วยเพิ่มประสิทธิภาพการทำงานของนักพัฒนา ซึ่งเปิดโอกาสให้ทีมสามารถโฟกัสที่นวัตกรรมมากขึ้นและลดปัญหาในการผสานการทำงาน

    Hamid Shojanazeri ผู้นำด้านวิศวกรรมพาร์ทเนอร์ PyTorch ของ Meta
  • Refact.ai

    Refact.ai นำเสนอเครื่องมือ AI ที่มีความครอบคลุม เช่น การเติมโค้ดอัตโนมัติที่ขับเคลื่อนโดย Retrieval-Augmented Generation (RAG) การให้คำแนะนำที่แม่นยำยิ่งขึ้น รวมถึงการแชทที่รับรู้บริบทโดยใช้ทั้งโมเดลที่เป็นกรรมสิทธิ์และโมเดลแบบโอเพนซอร์ส

    ลูกค้าได้รับประสิทธิภาพสูงขึ้นถึง 20% และโทเค็นที่สูงกว่า 1.5 เท่าต่อดอลลาร์ด้วยอินสแตนซ์ EC2 Inf2 เมื่อเทียบกับอินสแตนซ์ EC2 G5 ความสามารถในการปรับแต่งของ Refact.ai ช่วยเพิ่มความสามารถของลูกค้าในการทำความเข้าใจและปรับให้เข้ากับฐานโค้ดและสภาพแวดล้อมที่เป็นเอกลักษณ์ขององค์กร นอกจากนี้ เรายังตื่นเต้นที่จะนำเสนอความสามารถของ Trainium2 ซึ่งจะนำการประมวลผลที่รวดเร็วและมีประสิทธิภาพมากขึ้นให้กับเวิร์กโฟลว์ของเรา เทคโนโลยีขั้นสูงนี้จะช่วยให้ลูกค้าของเราสามารถเร่งความเร็วให้กับกระบวนการพัฒนาซอฟต์แวร์ได้โดยการเพิ่มประสิทธิภาพของนักพัฒนาซอฟต์แวร์ในขณะที่ยังคงรักษามาตรฐานความปลอดภัยที่เข้มงวดสำหรับฐานโค้ดของตน

    Oleg Klimov ประธานเจ้าหน้าที่บริหารและผู้ก่อตั้งของ Refact.ai
  • Karakuri Inc.

    KARAKURI สร้างเครื่องมือ AI เพื่อปรับปรุงประสิทธิภาพของการสนับสนุนลูกค้าบนเว็บและลดความซับซ้อนให้กับประสบการณ์ของลูกค้า เครื่องมือเหล่านี้ประกอบด้วยแชทบอท AI ที่ติดตั้งฟังก์ชัน AI ช่วยสร้าง เครื่องมือรวมคำถามที่พบบ่อยไว้ในที่เดียว และเครื่องมือตอบกลับอีเมล ซึ่งทั้งหมดนี้ช่วยปรับปรุงประสิทธิภาพและคุณภาพการสนับสนุนลูกค้า เราประสบความสำเร็จในการฝึก KARAKURI LM 8x7B Chat v0.1 โดยใช้ AWS Trainium สำหรับสตาร์ทอัพ เราจำเป็นต้องเพิ่มประสิทธิภาพเวลาในการสร้างและค่าใช้จ่ายที่จำเป็นในการฝึกอบรม LLM เช่นเดียวกับเรา ด้วยการสนับสนุนของ AWS Trainium และ AWS Team เราจึงสามารถพัฒนา LLM ระดับการปฏิบัติได้ในระยะเวลาอันสั้น นอกจากนี้ เรายังสามารถสร้างบริการอนุมานที่รวดเร็วและคุ้มค่าได้อีกด้วยเมื่อใช้ AWS Inferentia เราตื่นเต้นกับ Trainium2 เนื่องจากจะช่วยปฏิวัติกระบวนการฝึกของเรา ซึ่งลดเวลาการฝึกของเราลง 2 เท่า และเพิ่มประสิทธิภาพไปอีกขั้น!

    Tomofumi Nakayama ผู้ร่วมก่อตั้งของ Karakuri Inc.
  • Stockmark Inc.

    ด้วยพันธกิจ "การคิดค้นกลไกการสร้างมูลค่าเพิ่มและส่งเสริมมนุษยชาติใหม่" Stockmark ช่วยให้บริษัทต่าง ๆ มากมายสร้างและพัฒนาธุรกิจที่เป็นนวัตกรรมด้วยการนำเสนอเทคโนโลยีการประมวลผลภาษาธรรมชาติที่ล้ำสมัย บริการวิเคราะห์และรวบรวมข้อมูลใหม่ของ Stockmark ที่เรียกว่า Anews and SAT ซึ่งเป็นบริการจัดโครงสร้างข้อมูลที่ปรับปรุงการใช้ AI ช่วยสร้างอย่างมาก โดยการจัดระเบียบข้อมูลทุกรูปแบบที่จัดเก็บไว้ในองค์กร ทำให้เราต้องพิจารณาอีกวิธีที่เราสร้างและปรับใช้โมเดลเพื่อสนับสนุนผลิตภัณฑ์เหล่านี้ ด้วยตัวเร่ง Trainium 256 ตัว เราได้พัฒนาและเปิดตัว stockmark-13b ซึ่งเป็นโมเดลภาษาขนาดใหญ่ที่มีพารามิเตอร์ 13 พันล้านรายการ ซึ่งได้รับการฝึกล่วงหน้าตั้งแต่เริ่มต้นบนชุดข้อมูลคอร์ปัสภาษาญี่ปุ่นที่มีโทเค็น 220 พันล้านรายการ อินสแตนซ์ Trn1 ช่วยให้เราลดต้นทุนการฝึกได้ถึง 20% เมื่อใช้ประโยชน์จาก Trainium เราจึงประสบความสำเร็จในการพัฒนา LLM ซึ่งสามารถตอบคำถามสำคัญทางธุรกิจสำหรับมืออาชีพด้วยความแม่นยำและความรวดเร็วอย่างที่ไม่เคยมีมาก่อน ความสำเร็จนี้เป็นสิ่งที่โดดเด่นเป็นพิเศษเนื่องจากปัญหาที่บริษัทต่าง ๆ ต้องเผชิญในการสร้างทรัพยากรเชิงประมวลผลที่เพียงพอสำหรับการพัฒนาโมเดล ด้วยความเร็วและการลดต้นทุนที่น่าประทับใจของอินสแตนซ์ Trn1 เราตื่นเต้นที่ได้รับประโยชน์เพิ่มเติมที่ Trainium2 จะนำมาสู่เวิร์กโฟลว์และลูกค้าของเรา

    Kosuke Arima, CTO และผู้ร่วมก่อตั้งของ Stockmark Inc.
  • Brave

    Brave เป็นเบราว์เซอร์และเครื่องมือค้นหาอิสระสำหรับการจัดลำดับความสำคัญความเป็นส่วนตัวและความปลอดภัยของผู้ใช้โดยเฉพาะ ด้วยผู้ใช้มากกว่า 70 ล้านคน เราส่งมอบการป้องกันระดับชั้นนำของวงการที่ทำให้เว็บปลอดภัยและใช้งานง่ายขึ้น Brave ยังคงมุ่งมั่นที่จะให้ความสำคัญกับความดป็นส่วนตัว ความปลอดภัย และความสะดวกสบายเป็นอันดับแรก ซึ่งแตกต่างจากแพลตฟอร์มอื่น ๆ ที่เปลี่ยนไปจากแนวทางที่ให้ความสำคัญกับผู้ใช้เป็นหลัก ฟีเจอร์ที่สำคัญ ได้แก่ การบล็อกสคริปต์และตัวติดตามที่เป็นอันตราย ข้อมูลสรุปหน้าเว็บที่มีการช่วยเหลือจาก AI ซึ่งขับเคลื่อนโดย LLM, บริการ VPN ในตัว และอื่น ๆ อีกมากมาย เรามุ่งมั่นที่จะเพิ่มความเร็วและความคุ้มค่าของบริการค้นหาและโมเดล AI ของเราอย่างต่อเนื่อง เพื่อสนับสนุนสิ่งนี้ เราตื่นเต้นที่จะใช้ประโยชน์จากความสามารถล่าสุดของชิป AWS AI รวมถึง Trainium2 เพื่อปรับปรุงประสบการณ์ผู้ใช้ขณะที่เราปรับขนาดเพื่อจัดการกับการสืบค้นนับพันล้านรายการต่อเดือน

    Subu Sathyanarayana รองประธานฝ่ายวิศวกรรมของ Brave Software
  • Anyscale

    Anyscale เป็นบริษัทที่อยู่เบื้องหลัง Ray ซึ่งเป็นเอนจินการประมวลผล AI ที่กระตุ้นให้เกิดความคิดริเริ่มด้าน ML และ AI ช่วยสร้างสำหรับองค์กร ด้วยแพลตฟอร์ม AI แบบรวมของ Anyscale ที่ขับเคลื่อนโดย RayTurbo ลูกค้าจึงได้รับการประมวลผลข้อมูลที่รวดเร็วขึ้นถึง 4.5 เท่า, การอนุมานแบบแบทช์ที่มีต้นทุนต่ำกว่าถึง 10 เท่าด้วย LLM, การปรับขนาดที่เร็วขึ้นถึง 5 เท่า, การทำซ้ำที่รวดเร็วขึ้นถึง 12 เท่า และการประหยัดค่าใช้จ่าย 50% สำหรับการอนุมานโมเดลออนไลน์โดยการเพิ่มประสิทธิภาพการใช้ทรัพยากร

    ที่ Anyscale เรามุ่งมั่นที่จะเพิ่มศักยภาพห้กับองค์กรด้วยเครื่องมือที่ดีที่สุดในการปรับขนาดเวิร์กโหลด AI อย่างมีประสิทธิภาพและคุ้มค่า ด้วยการรองรับชิป AWS Trainium และ Inferentia แบบเนทีฟ ซึ่งขับเคลื่อนโดยรันไทม์ RayTurbo ลูกค้าของเราจึงสามารถเข้าถึงตัวเลือกที่มีประสิทธิภาพสูงและคุ้มค่าสำหรับการฝึกและให้บริการโมเดล ตอนนี้เรารู้สึกตื่นเต้นที่จะร่วมมือกับ AWS ในด้าน Trainium2 ซึ่งเป็นการปลดล็อกโอกาสใหม่ ๆ ให้กับลูกค้าในการสร้างสรรค์สิ่งใหม่อย่างรวดเร็ว และมอบประสบการณ์ AI พลิกโฉมวงการที่มีประสิทธิภาพสูง

    Robert Nishihara ผู้ร่วมก่อตั้งของ Anyscale
  • Datadog

    Datadog ซึ่งเป็นแพลตฟอร์มด้านข้อมูลการสังเกตและการรักษาความปลอดภัยสำหรับแอปพลิเคชันระบบคลาวด์ ให้บริการ AWS Trainium และ Inferentia Monitoring แก่ลูกค้าเพื่อเพิ่มประสิทธิภาพโมเดล ปรับปรุงประสิทธิภาพ และลดต้นทุน การผสานรวมของ Datadog มอบการแสดงผลอย่างเต็มรูปแบบที่เกี่ยวกับการดำเนินงาน ML และประสิทธิภาพชิปพื้นฐาน ช่วยให้สามารถแก้ไขปัญหาเชิงรุกและปรับขนาดโครงสร้างพื้นฐานได้อย่างราบรื่น เราตื่นเต้นที่จะขยายความร่วมมือของเรากับ AWS ในด้านการนำ AWS Trainium2 มาใช้ ซึ่งช่วยให้ผู้ใช้สามารถลดต้นทุนโครงสร้างพื้นฐาน AI ได้ถึง 50% และเพิ่มประสิทธิภาพการฝึกและการปรับใช้โมเดล

    Yrieix Garnier รองประธานฝ่ายบริษัทผลิตภัณฑ์ของ Datadog
  • Hugging Face

    Hugging Face เป็นแพลตฟอร์มเปิดชั้นนำสำหรับผู้สร้าง AI โดยมีโมเดล ชุดข้อมูล และแอปพลิเคชัน AI มากกว่า 2 ล้านแบบที่แชร์โดยชุมชนนักวิจัย นักวิทยาศาสตร์ข้อมูล วิศวกรแมชชีนเลิร์นนิง และนักพัฒนาซอฟต์แวร์มากกว่า 5 ล้านคน เราได้ร่วมมือกับ AWS ในช่วงสองสามปีที่ผ่านมา ทำให้นักพัฒนาสามารถสัมผัสประสิทธิภาพและประโยชน์ด้านต้นทุนของ AWS Inferentia และ Trainium ได้ง่ายขึ้นผ่านไลบรารีโอเพนซอร์ส Optimum Neuron ซึ่งผสานรวมอยู่ในตำแหน่งข้อมูลการอนุมานของ Hugging Face และปรับให้เหมาะสมในบริการปรับใช้ด้วยตนเองสำหรับ HUGS ใหม่ของเรา ซึ่งมีให้ใช้งานใน AWS Marketplace ด้วยการเปิดตัว Trainium2 ผู้ใช้ของเราจะสามารถเข้าถึงประสิทธิภาพที่สูงขึ้นเพื่อพัฒนาและปรับใช้โมเดลได้เร็วยิ่งขึ้น

    Jeff Boudier หัวหน้าฝ่ายผลิตภัณฑ์ของ Hugging Face
  • Lightning AI

    Lightning AI ซึ่งเป็นผู้สร้าง PyTorch Lightning และ Lightning Studios มีแพลตฟอร์มการพัฒนา AI แบบครบวงจรที่ใช้งานง่ายที่สุดสำหรับ AI ระดับองค์กร Lightning มีเครื่องมือโค้ดแบบเต็มรูปแบบ แบบใช้โค้ดน้อย และแบบไม่มีโค้ดเพื่อสร้างเอเจนต์ แอปพลิเคชัน AI และโซลูชัน AI ช่วยสร้างอย่างรวดเร็ว โดยได้รับการออกแบบมาเพื่อความยืดหยุ่น ซึ่งใช้งานได้อย่างราบรื่นบนระบบคลาวด์ของคุณหรือของเราโดยใช้ประโยชน์จากความเชี่ยวชาญและการสนับสนุนของชุมชนนักพัฒนาที่แข็งแกร่งกว่า 3 ล้านคน

    ตอนนี้ Lightning มีการสนับสนุนสำหรับชิป AWS AI, Trainium และ Inferentia ซึ่งรวมอยู่ใน Lightning Studios และเครื่องมือโอเพนซอร์สของเรา เช่น PyTorch Lightning, Fabric และ LitServe โดยช่วยให้ผู้ใช้ฝึกล่วงหน้า ปรับแต่ง และปรับใช้ในทุกขนาดได้อย่างราบรื่น ซึ่งจะปรับต้นทุน ความพร้อมใช้งาน และประสิทธิภาพให้เหมาะสมด้วยโดยที่มีค่าใช้จ่ายจากการปรับเปลี่ยนเป็นศูนย์ รวมถึงประโยชน์ด้านประสิทธิภาพและต้นทุนของชิป AWS AI รวมถึงชิป Trainium2 รุ่นใหม่ล่าสุด ซึ่งมอบประสิทธิภาพที่สูงขึ้นด้วยต้นทุนที่ลดลง

    Luca Antiga, CTO ของ Lightning AI
  • Domino Data Lab

    Domino จัดการอาร์ทิแฟกต์วิทยาศาสตร์ข้อมูลทั้งหมด รวมถึงโครงสร้างพื้นฐาน ข้อมูล และบริการบน AWS ในทุกสภาพแวดล้อม โดยเสริม Amazon SageMaker ด้วยความสามารถในการกำกับดูแลและการทำงานร่วมกันเพื่อสนับสนุนทีมงานวิทยาศาสตร์ข้อมูลขององค์กร Domino พร้อมใช้งานผ่าน AWS Marketplace ในรูปแบบ SaaS หรือแบบจัดการด้วยตนเอง

    องค์กรชั้นนำจะต้องสร้างสมดุลระหว่างความซับซ้อนทางเทคนิค ต้นทุน และการกำกับดูแล โดยต้องเชี่ยวชาญตัวเลือก AI ที่ครอบคลุม เพื่อให้ได้เปรียบทางการแข่งขัน ที่ Domino เรามุ่งมั่นที่จะให้ลูกค้าเข้าถึงเทคโนโลยีที่ล้ำสมัย เนื่องจากการประมวลผลเป็นคอขวดสำหรับนวัตกรรมใหม่ ๆ มากมาย เราจึงภูมิใจที่จะให้ลูกค้าสามารถเข้าถึง Trainium2 เพื่อให้พวกเขาสามารถฝึกและใช้งานโมเดลที่มีประสิทธิภาพสูงขึ้น ค่าใช้จ่ายต่ำลง และประสิทธิภาพการใช้พลังงานที่ดีขึ้น

    Nick Elprin, CEO และผู้ร่วมก่อตั้งของ Domino Data Lab

เริ่มต้นใช้งาน

รายละเอียดผลิตภัณฑ์

ขนาดของอินสแตนซ์ มีให้ใช้งานใน EC2 UltraServers ชิป Trainium2 Accelerator
หน่วยความจำ

vCPU หน่วยความจำ
(TB)
พื้นที่เก็บข้อมูลอินสแตนซ์ (TB) แบนวิดท์เครือข่าย (Tbps) แบนด์วิดท์ EBS (Gbps)
trn2.48xlarge ใช้ไม่ได้ 16 1.5 TB 192 2 TB 4 x 1.92 NVMe SSD 3.2 80
trn2u.48xlarge ใช้ได้ (แสดงตัวอย่าง) 16 1.5 TB 192 2 TB 4 x 1.92 NVMe SSD 3.2 80