AWS Trainium

รับประสิทธิภาพการใช้งานระดับสูงสำหรับดีปเลิร์นนิงและการฝึก AI ช่วยสร้างโดยลดต้นทุนได้อีกด้วย

ทำไมต้องใช้เทรเนียม

ชิป AWS Trainium เป็นกลุ่มชิป AI ที่ AWS สร้างขึ้นสำหรับการฝึก AI และการอนุมานเพื่อให้ประสิทธิภาพสูงไปพร้อม ๆ กับลดต้นทุน

ชิป AWS Trainium รุ่นแรกเสริมประสิทธิภาพให้กับอินสแตนซ์ Trn1 ของ Amazon Elastic Compute Cloud (Amazon EC2) ซึ่งมีค่าใช้จ่ายในการฝึกน้อยกว่าอินสแตนซ์ Amazon EC2 ที่เทียบเท่ากันถึง 50% ลูกค้าหลายรายรวมถึง Databricks, Ricoh, NinjaTech AI และ Arcee AI ตระหนักถึงประสิทธิภาพและความคุ้มค่าของอินสแตนซ์ Trn1

ชิป AWS Trainium2 มอบประสิทธิภาพของ Trainium รุ่นแรกสูงสุดถึง 4 เท่า อินสแตนซ์ Amazon EC2 Trn2 ที่ใช้ Trainium2 สร้างขึ้นสำหรับ AI ช่วยสร้างโดยเฉพาะและเป็นอินสแตนซ์ EC2 ที่มีประสิทธิภาพสูงสุดสำหรับการฝึกและใช้งานโมเดลที่มีพารามิเตอร์หลายร้อยพันล้านถึงล้านล้านกว่ารายการ อินสแตนซ์ Trn2 มีประสิทธิภาพต่อราคาดีกว่าอินสแตนซ์ EC2 P5e และ P5en รุ่นปัจจุบันที่ใช้ GPU ถึง 30-40% อินสแตนซ์ Trn2 มีชิป Trainium2 จำนวน 16 ชิปที่เชื่อมต่อกันกับ NeuronLink ซึ่งเป็นการเชื่อมต่อระหว่างชิปต่อชิปที่เป็นกรรมสิทธิ์เฉพาะของเรา คุณสามารถใช้อินสแตนซ์ Trn2 เพื่อฝึกและใช้งานโมเดลซึ่งเป็นที่ต้องการมากที่สุด เช่น โมเดลภาษาขนาดใหญ่ (LLM), โมเดลหลายรูปแบบ และตัวแปลงข้อมูลการแพร่กระจาย เพื่อสร้างชุดแอปพลิเคชัน AI ช่วยสร้างรุ่นใหม่ที่หลากหลายได้ Trn2 UltraServers ซึ่งเป็นข้อเสนอ EC2 ใหม่โดยสมบูรณ์ (มีให้ใช้งานในเวอร์ชันทดลองใช้) เหมาะสำหรับโมเดลขนาดใหญ่ที่สุดซึ่งต้องการหน่วยความจำและแบนด์วิดท์หน่วยความจำมากกว่าที่อินสแตนซ์ EC2 แบบสแตนด์อโลนสามารถให้ได้ การออกแบบ UltraServer นั้นจะใช้ NeuronLink เพื่อเชื่อมต่อชิป Trainium2 จำนวน 64 ชิปในอินสแตนซ์ Trn2 4 รายการลงในโหนดเดียว ซึ่งปลดล็อกความสามารถใหม่ ๆ สำหรับการอนุมาน UltraServer ให้เวลาตอบสนองได้ในระดับชั้นนำของอุตสาหกรรม จึงสร้างประสบการณ์แบบเรียลไทม์ได้ดีที่สุด และสำหรับการฝึกนั้น UltraServer ก็จะช่วยเพิ่มความเร็วและประสิทธิภาพการฝึกโมเดลด้วยการสื่อสารแบบรวมที่รวดเร็วขึ้นเพื่อการทำงานคู่ขนานของโมเดล โดยจะทำงานได้เร็วกว่าเมื่อเทียบกับอินสแตนซ์แบบสแตนด์อโลน

คุณสามารถเริ่มต้นฝึกและใช้งานอินสแตนซ์ Trn2 และ Trn1 ได้ด้วยการสนับสนุนแบบเนทีฟสำหรับเฟรมเวิร์กแมชชีนเลิร์นนิง (ML) ยอดนิยมอย่าง PyTorch และ JAX

ประโยชน์

Trn2 UltraServer และอินสแตนซ์มีประสิทธิภาพที่ก้าวหน้าใน Amazon EC2 สำหรับการฝึกและการอนุมานของ AI ช่วยสร้าง Trn2 UltraServer แต่ละชิปมีชิป Trainium2 64 ชิป ที่เชื่อมต่อกับ NeuronLink ซึ่งเป็นการเชื่อมต่อระหว่างชิปต่อชิปที่เป็นกรรมสิทธิ์ของเรา รวมถึงมีการประมวลผล FP8 สูงสุด 83.2 เพตะฟลอปส์, HBM3 6 TB พร้อมแบนด์วิดท์หน่วยความจำ 185 เทราไบต์ต่อวินาที (TBps) และเครือข่าย Elastic Fabric Adapter (EFA) 12.8 เทราบิตต่อวินาที (Tbps) อินสแตนซ์ Trn2 แต่ละอินสแตนซ์มีชิป Trainium2 จำนวน 16 ชิปที่เชื่อมต่อกับ NeuronLink และมีการประมวลผล FP8 สูงสุด 20.8 เพตะฟลอปส์, HBM3 ขนาด 1.5 TB พร้อมแบนด์วิดท์หน่วยความจำ 46 TBps และเครือข่าย EFA ขนาด 3.2 Tbps อินสแตนซ์ Trn1 มีชิป Trainium สูงสุด 16 ชิป และมีการประมวลผล FP8 สูงสุด 3 เพตะฟลอปส์, HBM ขนาด 512 GB พร้อมแบนด์วิดท์หน่วยความจำ 9.8 TBps และเครือข่าย EFA สูงสุด 1.6 Tbps

AWS Neuron SDK ช่วยให้คุณดึงประสิทธิภาพสูงสุดจากอินสแตนซ์ Trn2 และ Trn1 เพื่อให้คุณสามารถมุ่งเน้นไปที่การสร้างและปรับใช้โมเดล รวมถึงเร่งเวลาในการนำสู่ตลาด AWS Neuron ผสานรวมเข้ากับ JAX, PyTorch และไลบารีสำคัญอื่น ๆ เช่น Hugging Face, PyTorch Lightning และ NeMo AWS Neuron รองรับโมเดลกว่า 100,000 รายการบนฮับโมเดล Hugging Face รวมถึงโมเดลยอดนิยม เช่น กลุ่มโมเดล Llama ของ Meta และ Stable Diffusion XL นอกจากนี้ยังช่วยเพิ่มประสิทธิภาพโมเดลให้เหมาะสมสำหรับการฝึกและการอนุมานแบบกระจายโดยไม่ต้องตั้งค่าเพิ่มเติม พร้อมทั้งให้ข้อมูลเชิงลึกในการรวบรวมข้อมูลและแก้ไขปัญหา AWS Neuron สามารถผสานรวมกับบริการต่าง ๆ เช่น Amazon SageMaker, Amazon Elastic Kubernetes Service (Amazon EKS), Amazon Elastic Container Service (Amazon ECS), AWS ParallelCluster และ AWS Batch รวมทั้งบริการของบุคคลที่สาม เช่น Ray (Anyscale), Domino Data Lab และ Datadog

เพื่อมอบประสิทธิภาพสูงไปพร้อมกับบรรลุเป้าหมายด้านความแม่นยำ ชิป Trainium จึงได้รับการปรับให้เหมาะสมสำหรับ FP32, TF32, BF16, FP16, และประเภทข้อมูล FP8 (cFP8) ใหม่ที่กำหนดค่าได้ Trainium2 มีการปรับแต่งฮาร์ดแวร์สำหรับการกระจายข้อมูลแบบ 4 เท่า (16:4), การปรับขนาดเล็ก, การปัดเศษแบบสโตคาสติก และเครื่องมือรวมกลุ่มเฉพาะ เพื่อรองรับการพัฒนานวัตกรรม AI ช่วยสร้างที่รวดเร็ว

Neuron Kernel Interface (NKI) ช่วยให้สามารถเข้าถึงสถาปัตยกรรมชุดคำแนะนำ (ISA) โดยตรงโดยใช้สภาพแวดล้อมแบบ Python ที่มีอินเทอร์เฟซคล้าย Triton ซึ่งช่วยให้คุณสร้างสถาปัตยกรรมโมเดลใหม่และเคอร์เนลการคำนวณที่ได้รับการปรับแต่งสูง ซึ่งเหนือกว่าเทคนิคที่มีอยู่

อินสแตนซ์ Trn2 ได้รับการออกแบบให้มีประสิทธิภาพการใช้พลังงานสูงกว่าอินสแตนซ์ Trn1 ถึง 3 เท่า อินสแตนซ์ Trn1 มีประสิทธิภาพการใช้พลังงานสูงกว่าอินสแตนซ์ EC2 สำหรับการประมวลผลแบบเร่งความเร็วที่เทียบเคียงกันได้ถึง 25% อินสแตนซ์เหล่านี้ช่วยให้คุณบรรลุเป้าหมายด้านความยั่งยืนเมื่อฝึกโมเดลขนาดใหญ่พิเศษ

วิดีโอ

เพิ่มประสิทธิภาพของ AI ได้สูงสุด รวมทั้งลดค่าใช้จ่ายและปรับขนาดของ AI ได้สูงสุด
AWS Trainium2 เพื่อประสิทธิภาพที่ล้ำหน้าของ AI
เรื่องราวของลูกค้าชิป AWS AI

ทรัพยากร