ข้ามไปที่เนื้อหาหลัก

ชิป AWS AI

AWS Trainium

Trainium3 ซึ่งเป็นชิป AWS AI 3nm ตัวแรกของเราที่สร้างขึ้นเพื่อส่งมอบเศรษฐศาสตร์โทเค็นที่ดีที่สุดสำหรับแอพพลิเคชั่นเอเจนติก เหตุผล และการสร้างวิดีโอ เจนเนอเรชั่นต่อไป

ทำไมต้องใช้เทรเนียม

AWS Trainium เป็นตระกูลของตัวเร่ง AI ที่สร้างขึ้นโดยเฉพาะ - Trn1, Trn2 และ Trn3 ซึ่งออกแบบมาเพื่อมอบประสิทธิภาพที่ปรับขนาดได้และประหยัดค่าใช้จ่ายสำหรับการฝึกอบรมและการอนุมานในปริมาณงาน AI แบบสร้างขึ้นที่หลากหลาย

ตระกูล AWS เทรเนียม

เทรเนียม1

ชิป AWS Trainium รุ่นแรกเสริมประสิทธิภาพให้กับอินสแตนซ์ Trn1 ของ Amazon Elastic Compute Cloud (Amazon EC2) ซึ่งมีค่าใช้จ่ายในการฝึกน้อยกว่าอินสแตนซ์ Amazon EC2 ที่เทียบเท่ากันถึง 50% ลูกค้าจำนวนมากรวมถึง Ricoh, Karakuri, SplashMusic และ Arcee AI กำลังตระหนักถึงประสิทธิภาพและประโยชน์ด้านต้นทุนของอินสแตนซ์ Trn1

เทรเนียม2

ชิป AWS Trainium2 มอบประสิทธิภาพของ Trainium รุ่นแรกสูงสุดถึง 4 เท่า อินสแตนซ์ Amazon EC2 Trn2 และ Trn2 UltraServer ที่ใช้ Trainium2 สร้างขึ้น โดยเฉพาะสำหรับ AI แบบสร้างขึ้นและให้ประสิทธิภาพในราคาที่ดีกว่า อินสแตนซ์ EC2 P5e และ P5en ที่ใช้ GPU 30-40% อินสแตนซ์ Trn2 มีชิป Trainium2 สูงสุด 16 ชิป และ Trn2 UltraServer มีชิป Trainium2 สูงสุด 64 ชิปที่เชื่อมต่อกันกับ NeuronLink ซึ่งเป็นการเชื่อมต่อระหว่างชิปต่อชิปที่เป็นกรรมสิทธิ์ของเรา คุณสามารถใช้อินสแตนซ์ Trn2 และ UltraServer เพื่อฝึกอบรมและปรับใช้โมเดลที่ต้องการมากที่สุด รวมถึงโมเดลภาษาขนาดใหญ่ (LLM) โมเดลมัลติโมดูล และหม้อแปลงแบบกระจายเพื่อสร้างแอพพลิเคชั่น AI แบบสร้างสรรค์รุ่นต่อไป

เทรเนียม3

Trn3 UltraServers ซึ่งขับเคลื่อนด้วยชิป AI รุ่นที่สี่ของเรา ชิป AI 3 นาโนเมตรแรกของ AWS Trainium3—ได้รับการสร้างขึ้นโดยวัตถุประสงค์เพื่อมอบเศรษฐศาสตร์โทเค็นที่ดีที่สุดสำหรับแอปพลิเคชันตัวแทนการให้เหตุผลและการสร้างวิดีโอรุ่นต่อไป Trn3 UltraServers ให้ประสิทธิภาพสูงถึง 4.4 เท่า แบนด์วิดท์หน่วยความจำสูงกว่า 3.9 เท่า และประสิทธิภาพการใช้พลังงานมากกว่า 4 เท่า เมื่อเทียบกับ Trn2 UltraServers ซึ่งให้ประสิทธิภาพราคาที่ดีที่สุดสำหรับการฝึกอบรมและให้บริการแบบจำลองระดับแนวชายแดน รวมถึงการเรียนรู้การเสริมแรง Mixture-of-Experts (MoE) การให้เหตุผลและสถาปัตยกรรมที่ยาวนาน

ชิป AWS Trainium3 แต่ละชิป ให้การคำนวณ FP8 petaflops (PFLOPs) 2.52 ชิป เพิ่มความจุหน่วยความจำ 1.5 เท่าและแบนด์วิดท์เพิ่ม 1.7 เท่า จาก Trainium2 ถึง 144 GB ของหน่วยความจำ และแบนด์วิดท์หน่วยความจำ 4.9 TB/s Trainium3 ออกแบบมาสำหรับงานที่หนาแน่นและคู่ขนานด้วยประเภทข้อมูลขั้นสูง (MXFP8 และ MXFP4) และหน่วยความจำที่ได้รับการปรับปรุง สมดุลคำนวณสำหรับงานแบบเรียลไทม์ มัลติโมดัล และการให้เหตุผล

ใน Amazon Bedrock Trainium3 เป็นตัวเร่งความเร็วที่เร็วที่สุด โดยให้ประสิทธิภาพที่เร็วกว่า Trainium2 ถึง 3 เท่าและประสิทธิภาพการใช้พลังงานที่ดีกว่าตัวเร่งอื่น ๆ ในบริการ 3 เท่า ในการทดสอบการให้บริการขนาดใหญ่ (เช่น GPT-OSS) Trn3 ให้โทเค็นเอาต์พุตสูงกว่า 5 เท่าต่อเมกะวัตต์กว่า Trn2 ที่ความหน่วงคล้ายกันต่อผู้ใช้ ทำให้สามารถอนุมานได้ปริมาณงานที่ยั่งยืนและสูงขึ้นในระดับมากขึ้น

สร้างขึ้นสำหรับนักพัฒนา

อินสแตนซ์ใหม่ที่ใช้ Trainium3 ถูกสร้างขึ้นสำหรับนักวิจัย AI และขับเคลื่อนโดย AWS Neuron SDK เพื่อปลดล็อก
ประสิทธิภาพที่ก้าวหน้า 

ด้วยการผสานรวม PyTorch ดั้งเดิม นักพัฒนาสามารถฝึกอบรมและปรับใช้ได้โดยไม่ต้องเปลี่ยนรหัสเพียงบรรทัดเดียว สำหรับ AI
วิศวกรด้านประสิทธิภาพ เราได้เปิดใช้งานการเข้าถึง Trainium3 อย่างลึกซึ้งยิ่งขึ้น เพื่อให้นักพัฒนาสามารถปรับประสิทธิภาพได้อย่างละเอียด
ปรับแต่งเคอร์เนลและผลักโมเดลของคุณให้มากขึ้น เนื่องจากนวัตกรรมทำให้เกิดการเปิดกว้าง เราจึงมุ่งมั่นอย่างยั่งยืน
เพื่อการมีส่วนร่วมกับนักพัฒนาของเราผ่านเครื่องมือและทรัพยากรแบบโอเพนซอร์ส 

หากต้องการเรียนรู้เพิ่มเติม โปรดไปที่อินส แตนซ์ Amazon EC2 Trn3 สำรว AWS Neuron SDK หรือลงทะเบียนเพื่อเข้าถึงตัวอย่าง

ประโยชน์

Trn3 UltraServers นำเสนอนวัตกรรมล่าสุดในเทคโนโลยี UltraServer ที่ปรับขนาดขึ้นด้วย NeuronSwitch-V1 สำหรับ
รวมทุกคนได้เร็วขึ้นด้วยชิป Trainium3 ได้ถึง 144 ชิป โดยรวมแล้ว Trn3 UltraServer เดี่ยวให้บริการ
ถึง 20.7 TB ของ HBM3e, แบนด์วิดท์หน่วยความจำ 706 Tb/s และ 362 PFLOPS FP8 ส่งมอบมากถึง 4.4 เท่า
ประสิทธิภาพและประสิทธิภาพการใช้พลังงานมากกว่า 4 เท่า ดีกว่า UltraServers Trn2 Trn3 ให้ค่าสูงสุด
ประสิทธิภาพด้วยต้นทุนต่ำสุดสำหรับการฝึกอบรมและการอนุมานด้วยพารามิเตอร์ 1T+ MoE และแบบจำลอง Reasoningtype และขับเคลื่อนปริมาณงานที่สูงขึ้นอย่างมีนัยสำคัญสำหรับ GPT-OSS ที่ให้บริการในระดับเมื่อเทียบกับ Trainium2-
อินสแตนซ์ตามพื้นฐาน

Trn2 UltraServers ยังคงเป็นตัวเลือกประสิทธิภาพสูงและคุ้มค่าสำหรับการฝึกอบรม AI แบบสร้างสรรค์และการอนุมานของ
รุ่นสูงสุดพารามิเตอร์ 1T อินสแตนซ์ Trn2 มีชิป Trainium2 สูงสุด 16 ชิป และคุณสมบัติ Trn2 UltraServer
ชิป Trainium2 สูงสุด 64 ชิปเชื่อมต่อกับ NeuronLink ซึ่งเป็นการเชื่อมต่อระหว่างชิปต่อชิปที่เป็นกรรมสิทธิ์

อินสแตนซ์ Trn1 มีชิป Trainium สูงสุด 16 ชิป และให้บริการ PFLOPS FP8 สูงสุด 3 ตัว HBM 512 GB พร้อม 9.8 Tb/s
แบนด์วิดท์หน่วยความจำและเครือข่าย EFA สูงสุด 1.6 Tbps

สร้างขึ้นเพื่อการวิจัยและการทดลอง

AWS Neuron SDK ช่วยให้คุณดึงประสิทธิภาพเต็มรูปแบบจากอินสแตนซ์ Trn3, Trn2 และ Trn1 เพื่อให้คุณสามารถมุ่งเน้นไปที่การสร้างและปรับใช้โมเดลและเร่งเวลาในการตลาด AWS Neuron ผสานรวมเข้ากับ PyTorch Jax และไลบรารีที่จำเป็นเช่น Hugging Face, VllM, PyTorch Lightning และอื่น ๆ นอกจากนี้ยังช่วยเพิ่มประสิทธิภาพโมเดลให้เหมาะสมสำหรับการฝึกและการอนุมานแบบกระจายโดยไม่ต้องตั้งค่าเพิ่มเติม พร้อมทั้งให้ข้อมูลเชิงลึกในการรวบรวมข้อมูลและแก้ไขปัญหา AWS Neuron รวมเข้ากับบริการเช่น Amazon SageMaker, Amazon SageMaker Hyerpod, Amazon Elastic Kubernetes Service (Amazon EKS), Amazon Elastic Container Service (Amazon ECS), AWS ParallelCluster และ AWS Batch รวมถึงบริการของบุคคลที่สามเช่น Ray (Anyscale), Domino Data Lab และ Datadog

เพื่อมอบประสิทธิภาพสูงในขณะที่บรรลุเป้าหมายความแม่นยำ AWS Trainium รองรับความแม่นยำที่หลากหลาย
ประเภทข้อมูลเช่น BF16, FP16, FP8, MXFP8 และ MXFP4 เพื่อสนับสนุนนวัตกรรมที่รวดเร็วใน AI แบบสร้างสรรค์
Trainium2 และ Trainium3 มีคุณสมบัติการเพิ่มประสิทธิภาพฮาร์ดแวร์สำหรับการดูดซึม 4 เท่า (16:4) การปรับขนาดไมโครสโตคาสติก
การปัดเศษและเครื่องยนต์รวมโดยเฉพาะ

Neuron ช่วยให้นักพัฒนาสามารถเพิ่มประสิทธิภาพการทำงานโดยใช้ Neuron Kernel Interface (NKI) สำหรับการพัฒนาเคอร์เนล NKI เปิดเผย Trainium ISA เต็มรูปแบบช่วยให้สามารถควบคุมการเขียนโปรแกรมระดับคำสั่งการการจัดสรรหน่วยความจำและการจัดตารางการดำเนินงานได้อย่างสมบูรณ์ นอกเหนือจากการสร้าง Kernel ของคุณเอง นักพัฒนาสามารถใช้ Neuron Kernel Library ซึ่งเป็นโอเพนซอร์ส พร้อมที่จะปรับใช้เคอร์เนลที่ปรับให้เหมาะสม และสุดท้าย Neuron Explore ให้การมองเห็นสแต็กเต็มรูปแบบ เชื่อมต่อกับรหัสนักพัฒนาไปยังเอ็นจิ้นในฮาร์ดแวร์

ลูกค้า

ลูกค้าเช่น Databricks, Ricoh, Karakuri, SplashMusic และอื่น ๆ กำลังตระหนักถึงผลประโยชน์ด้านประสิทธิภาพและต้นทุนของอินสแตนซ์ Trn1

ลูกค้ารวมถึง Anthropic, Databricks, Poolside, Ricoh และ NinjaTech AI กำลังตระหนักถึงประสิทธิภาพและผลประโยชน์ด้านต้นทุนที่สำคัญในหน้าจอ Trn1 และ Trn2

ผู้ใช้งานในยุคแรกของ Trn3 กำลังบรรลุประสิทธิภาพและความสามารถในการปรับขนาดระดับใหม่สำหรับโมเดล AI แบบสร้างขนาดใหญ่รุ่นต่อไป

Missing alt text value

เพิ่มประสิทธิภาพของ AI ได้สูงสุด รวมทั้งลดค่าใช้จ่ายและปรับขนาดของ AI ได้สูงสุด

AWS Trainium2 เพื่อประสิทธิภาพ AI ที่ล้ำหน้า

เรื่องราวของลูกค้าชิป AWS AI

ทรัพยากร