ชิป AWS AI

AWS Trainium

Trainium — สร้างขึ้นโดยเฉพาะสำหรับ AI ประสิทธิภาพสูงและคุ้มค่าในทุกระดับ

เริ่มต้นใช้งาน Trainium โดยใช้ AWS Neuron

ทำไมต้องใช้ Trainium

AWS Trainium คือกลุ่มผลิตภัณฑ์ AI Accelerator ที่สร้างขึ้นโดยเฉพาะ ได้แก่ Trainium1, Trainium2 และ Trainium3 ซึ่งออกแบบมาเพื่อมอบประสิทธิภาพที่ปรับขนาดได้และมีความคุ้มค่าคุ้มราคาสำหรับการฝึกและการอนุมานในเวิร์กโหลด AI ช่วยสร้างที่หลากหลาย

กลุ่มผลิตภัณฑ์ AWS Trainium

Trainium1

ชิป AWS Trainium รุ่นแรกเสริมประสิทธิภาพให้กับอินสแตนซ์ Trn1 ของ Amazon Elastic Compute Cloud (Amazon EC2) ซึ่งมีค่าใช้จ่ายในการฝึกน้อยกว่าอินสแตนซ์ Amazon EC2 ที่เทียบเท่ากันถึง 50% ลูกค้าหลายรายรวมถึง Ricoh, Karakuri, SplashMusic และ Arcee AI ตระหนักถึงประสิทธิภาพและความคุ้มค่าของอินสแตนซ์ Trn1

Trainium2

ชิป AWS Trainium2 มอบประสิทธิภาพของ Trainium รุ่นแรกสูงสุดถึง 4 เท่า อินสแตนซ์ Amazon EC2 Trn2 และ Trn2 UltraServers ที่ใช้ Trainium2 สร้างขึ้นโดยเฉพาะสำหรับ AI ช่วยสร้าง พร้อมทั้งมอบความคุ้มค่าคุ้มราคาที่ดีกว่าถึง 30-40% เมื่อเทียบอินสแตนซ์ EC2 P5e และ P5en ที่ใช้ GPU อินสแตนซ์ Trn2 มีชิป Trainium2 สูงสุด 16 ชิป และ Trn2 UltraServers มีชิป Trainium2 สูงสุด 64 ชิปที่เชื่อมต่อระหว่างกันกับ NeuronLink ซึ่งเป็นการเชื่อมต่อแบบ chip-to-chip ที่เป็นกรรมสิทธิ์เฉพาะของเรา คุณสามารถใช้อินสแตนซ์ Trn2 และ UltraServers เพื่อฝึกและใช้งานโมเดลซึ่งเป็นที่ต้องการมากที่สุด เช่น โมเดลภาษาขนาดใหญ่ (LLM) โมเดลหลายรูปแบบ และตัวแปลงข้อมูลการแพร่กระจาย เพื่อสร้างชุดแอปพลิเคชัน AI ช่วยสร้างรุ่นใหม่ที่หลากหลายได้

Trainium3

ชิป AI 3nm ตัวแรกของ AWS สร้างขึ้นโดยวัตถุประสงค์เพื่อมอบเศรษฐศาสตร์โทเค็นที่ดีที่สุดสำหรับ Agentic รุ่นใหม่ การใช้เหตุผล และแอปพลิเคชันการสร้างวิดีโอ ชิป AWS Trainium3 มอบประสิทธิภาพการประมวลผลเพิ่มขึ้น 2 เท่าในรูปแบบ FP8 สูงสุด 2.52 เพตาฟล็อป (PFLOPs) เพิ่มความจุหน่วยความจำสูงสุด 1.5 เท่าและแบนวิดท์สูงสุด 1.7 เท่า เหนือกว่า Trainium2 ที่มีหน่วยความจำ HBM3e ขนาด 144 GB และแบนวิดท์หน่วยความจำที่ 4.9 TB/s Trn3 UltraServer ที่ขับเคลื่อนโดย Trainium3 ให้ประสิทธิภาพสูงถึง 4.4 เท่า แบนด์วิดท์หน่วยความจำสูงกว่า 3.9 เท่า และประสิทธิภาพการใช้พลังงานมากกว่า 4 เท่าเมื่อเทียบกับ Trn2 UltraServer Trainium3 ได้รับการออกแบบมาสำหรับเวิร์กโหลดที่หนาแน่นและคู่ขนานกับผู้เชี่ยวชาญด้วยประเภทข้อมูลขั้นสูง (MXFP8 และ MXFP4) และสมดุลหน่วยความจำในการประมวลผลที่ดีขึ้นสำหรับงานให้เหตุผลหลายรูปแบบแบบเรียลไทม์

สร้างขึ้นเพื่อนักพัฒนา

Trainium3 ใหม่สร้างขึ้นเพื่อนักวิจัย AI และขับเคลื่อนโดย AWS Neuron SDK เพื่อปลดล็อกประสิทธิภาพแห่งปรากฏการณ์

ด้วยการผสานรวม PyTorch แบบเนทีฟ นักพัฒนาจึงสามารถฝึกและปรับใช้ได้โดยไม่ต้องเปลี่ยนโค้ดแม้แต่บรรทัดเดียว สำหรับวิศวกรด้านประสิทธิภาพ AI เราได้เปิดใช้งานการเข้าถึง Trainium3 ได้ลึกขึ้น เพื่อให้นักพัฒนาสามารถปรับแต่งประสิทธิภาพเพิ่มเติม ปรับแต่งเคอร์เนล และผลักดันโมเดลให้ไปได้ไกลขึ้น เนื่องจากนวัตกรรมเจริญรุ่งเรืองจากการเปิดกว้าง เราจึงมุ่งมั่นที่จะมีส่วนร่วมกับนักพัฒนาของเราผ่านเครื่องมือและทรัพยากรแบบโอเพนซอร์ส

หากต้องการเรียนรู้เพิ่มเติม โปรดไปที่ Amazon EC2 Trn3 UltraServers และสำรวจ AWS Neuron SDK

ประโยชน์

Trn3 UltraServers มาพร้อมนวัตกรรมล่าสุดของเทคโนโลยี UltraServer แบบ scale-up โดยมี NeuronSwitch-v1 ที่ช่วยให้การสื่อสารแบบ all-to-all เร็วยิ่งขึ้นและรองรับชิป Trainium3 ได้สูงสุดถึง 144 ชิป Trn3 UltraServer มอบหน่วยความจำ HBM3e สูงถึง 20.7 TB แบนด์วิดท์หน่วยความจำ 706 TB/s และ MXFP8 จำนวน 362 PFLOPs โดยมอบประสิทธิภาพสูงขึ้นถึง 4.4 เท่า และประสิทธิภาพการใช้พลังงานมากกว่า 4 เท่าเมื่อเทียบกับ Trn2 UltraServer Trn3 มอบประสิทธิภาพสูงสุดในต้นทุนต่ำที่สุดสำหรับการฝึกและการอนุมานด้วยโมเดล MoE และโมเดลประเภทการใช้เหตุผลรุ่นล่าสุดที่มีพารามิเตอร์มากกว่า 1T และยังมอบอัตราการโอนถ่ายข้อมูลที่สูงขึ้นอย่างมากสำหรับการให้บริการ GPT-OSS ในวงกว้างเมื่อเทียบกับอินสแตนซ์ที่ใช้ Trainium2

Trn2 UltraServers ยังคงเป็นตัวเลือกประสิทธิภาพสูงและคุ้มค่าสำหรับการฝึก AI ช่วยสร้างและการอนุมานของโมเดลสูงสุดพารามิเตอร์ 1T อินสแตนซ์ Trn2 มีชิป Trainium2 สูงสุด 16 ชิป และ Trn2 UltraServers มีชิป Trainium2 สูงสุด 64 ชิปที่เชื่อมต่อกับ NeuronLink ซึ่งเป็นการเชื่อมต่อแบบ chip-to-chip ที่เป็นกรรมสิทธิ์เฉพาะ

อินสแตนซ์ Trn1 มีชิป Trainium สูงสุด 16 ชิป และมีการประมวลผล FP8 สูงสุด 3 PFLOPs, HBM ขนาด 512 GB พร้อมแบนด์วิดท์หน่วยความจำ 9.8 TB/s และการสร้างระบบเครือข่าย EFA สูงสุด 1.6 Tbps

AWS Neuron SDK ช่วยให้คุณสามารถดึงประสิทธิภาพสูงสุดจากอินสแตนซ์ Trn3, Trn2 และ Trn1 เพื่อให้คุณมุ่งเน้นไปที่การสร้างและปรับใช้โมเดล รวมถึงเร่งเวลาในการนำสู่ตลาด AWS Neuron ผสานรวมแบบเนทีฟเข้ากับ PyTorch Jax และไลบรารีสำคัญอื่น ๆ อย่าง Hugging Face, vLLM, PyTorch Lightning และอื่น ๆ นอกจากนี้ยังช่วยเพิ่มประสิทธิภาพโมเดลให้เหมาะสมสำหรับการฝึกและการอนุมานแบบกระจายโดยไม่ต้องตั้งค่าเพิ่มเติม พร้อมทั้งให้ข้อมูลเชิงลึกในการรวบรวมข้อมูลและแก้ไขปัญหา AWS Neuron สามารถผสานรวมเข้ากับบริการต่าง ๆ เช่น Amazon SageMaker, Amazon SageMaker Hyerpod, Amazon Elastic Kubernetes Service (Amazon EKS), Amazon Elastic Container Service (Amazon ECS), AWS ParallelCluster และ AWS Batch รวมทั้งบริการของบุคคลที่สาม เช่น Ray (Anyscale), Domino Data Lab และ Datadog

AWS Trainium รองรับความแม่นยำที่หลากหลายเพื่อมอบประสิทธิภาพสูงในขณะที่บรรลุเป้าหมายด้านความถูกต้องแม่นยำ
ประเภทข้อมูลต่าง ๆ ได้แก่ BF16, FP16, FP8, MXFP8 และ MXFP4 เพื่อสนับสนุนการสร้างสรรค์นวัตกรรมที่รวดเร็วใน AI ช่วยสร้าง
Trainium2 and Trainium3 มอบการเพิ่มประสิทธิภาพฮาร์ดแวร์สำหรับ Sparsity 4 เท่า (16:4), การปรับขนาดระดับย่อย การปัดเศษ
โดยใช้ความน่าจะเป็น และเอ็นจิ้นเฉพาะแบบ Collective

Neuron ช่วยให้นักพัฒนาสามารถเพิ่มประสิทธิภาพเวิร์กโหลดโดยใช้ Neuron Kernel Interface (NKI) สำหรับการพัฒนาเคอร์เนล NKI เปิดให้เข้าถึง Trainium ISA ได้อย่างเต็มรูปแบบช่วยให้ควบคุมการเขียนโปรแกรมระดับคำสั่งการ การจัดสรรหน่วยความจำ และการกำหนดเวลาการดำเนินการได้อย่างสมบูรณ์ นอกเหนือจากการสร้างเคอร์เนลเองแล้ว นักพัฒนายังสามารถใช้ Neuron Kernel Library ซึ่งเป็นโอเพนซอร์สและพร้อมปรับใช้เคอร์เนลที่ได้รับการปรับให้เหมาะสม สุดท้าย Neuron Explore ให้การมองเห็นแบบฟูลสแต็ก โดยเชื่อมต่อโค้ดของนักพัฒนาไปจนถึงเอ็นจิ้นในระดับฮาร์ดแวร์

ลูกค้า

ลูกค้าหลายราย เช่น Anthropic, Decart, Poolside, Databricks, Ricoh, Karakuri, SplashMusic และอื่น ๆ ตระหนักถึงประโยชน์ด้านประสิทธิภาพและต้นทุนสำหรับอินสแตนซ์ Trn1, Trn2 และ Trn3 รวมถึง UltraServers

ผู้ใช้งาน Trn3 ช่วงแรกกำลังบรรลุประสิทธิภาพและความสามารถในการปรับขนาดระดับใหม่สำหรับโมเดล AI ช่วยสร้างขนาดใหญ่รุ่นต่อไป