ข้ามไปที่เนื้อหาหลัก

ทำไมต้องใช้ Amazon EC2 UltraServer

Amazon Elastic Compute Cloud (Amazon EC2) UltraServers เหมาะสำหรับลูกค้าที่ต้องการประสิทธิภาพการฝึก AI และการอนุมานสูงสุดสำหรับโมเดลในระดับล้านล้านพารามิเตอร์ UltraServers เชื่อมต่ออินสแตนซ์ EC2 หลายอินสแตนซ์ โดยใช้การเชื่อมต่อตัวเร่งความเร็วแบนด์วิดท์สูงที่มีเวลาแฝงต่ำโดยเฉพาะ ซึ่งช่วยให้คุณสามารถใช้ประโยชน์จากโครงข่ายเร่งความเร็วที่จับคู่กันอย่างแน่นหนาในอินสแตนซ์ EC2 รวมถึงเข้าถึงการประมวลผลและหน่วยความจำได้มากกว่าอินสแตนซ์ EC2 แบบสแตนด์อโลน

EC2 UltraServers เหมาะสำหรับโมเดลขนาดใหญ่ที่สุดซึ่งต้องการหน่วยความจำและแบนด์วิดท์หน่วยความจำมากกว่าที่อินสแตนซ์ EC2 แบบสแตนด์อโลนสามารถให้ได้ การออกแบบ UltraServer ใช้การเชื่อมต่อตัวเร่งภายในอินสแตนซ์เพื่อเชื่อมต่อหลายอินสแตนซ์เข้ากับโหนดเดียว ซึ่งช่วยปลดล็อกความสามารถใหม่ ๆ สำหรับการอนุมาน UltraServer ให้เวลาตอบสนองได้ในระดับชั้นนำของอุตสาหกรรม จึงสร้างประสบการณ์แบบเรียลไทม์ได้ดีที่สุด และสำหรับการฝึกนั้น UltraServer ก็จะช่วยเพิ่มความเร็วและประสิทธิภาพการฝึกโมเดลด้วยการสื่อสารแบบรวมที่รวดเร็วขึ้นเพื่อการทำงานคู่ขนานของโมเดล โดยจะทำงานได้เร็วกว่าเมื่อเทียบกับอินสแตนซ์แบบสแตนด์อโลน EC2 UltraServers รองรับระบบเครือข่าย EFA และเมื่อนำมาใช้งานใน EC2 UltraClusters จะช่วยให้ขยายการฝึกแบบกระจายตัวได้ในตัวเร่งหลายหมื่นตัวบนเครือข่ายที่ไม่บล็อกในระดับเพตะบิตเดียว ด้วยการมอบประสิทธิภาพที่สูงขึ้นสำหรับการฝึกและการอนุมาน UltraServers จึงสามารถช่วยเร่งเวลาออกสู่ตลาดและช่วยให้คุณสามารถส่งมอบแอปพลิเคชันแบบเรียลไทม์ที่ขับเคลื่อนโดยโมเดลพื้นฐานใหม่ที่มีประสิทธิภาพมากที่สุด

ประโยชน์

UltraServers ช่วยให้การฝึกอบรมและการอนุมานโมเดลที่มีพารามิเตอร์หลายร้อยพันล้านถึงล้านล้านตัวมีประสิทธิภาพมากขึ้น โดยเชื่อมโยงชุดอุปกรณ์เร่งความเร็วจำนวนมากขึ้นด้วยการเชื่อมต่อความเร็วสูงและเวลาแฝงต่ำ เพื่อมอบพลังการประมวลผลและหน่วยความจำมากกว่า EC2 instances แบบสแตนด์อโลน

UltraServers ช่วยให้สามารถอนุมานแบบเรียลไทม์สำหรับโมเดลขนาดใหญ่พิเศษที่ต้องการทรัพยากรหน่วยความจำและแบนด์วิดท์หน่วยความจำมากเกินกว่าที่อินสแตนซ์ EC2 เดียวสามารถนำเสนอได้

UltraServers ช่วยให้การสื่อสารร่วมกันรวดเร็วยิ่งขึ้นสำหรับการประมวลผลแบบคู่ขนานของโมเดลเมื่อเปรียบเทียบกับอินสแตนซ์แบบสแตนด์อโลน ช่วยให้คุณลดเวลาในการฝึก

คุณสมบัติ

คุณสามารถเปิดอินสแตนซ์ลงใน UltraServer และใช้ประโยชน์จากการเชื่อมต่ออุปกรณ์เร่งความเร็วเฉพาะจุด ความเร็วสูง และเวลาแฝงต่ำในอินสแตนซ์เหล่านี้ได้ UltraServers ช่วยให้สามารถเข้าถึงตัวเร่งความเร็วที่เชื่อมต่อกับการเชื่อมต่อเฉพาะจุดนี้ได้มากขึ้น ทำให้มีการประมวลผลและหน่วยความจำในโหนดเดียวมากกว่าอินสแตนซ์ EC2 แบบสแตนด์อโลน

EC2 UltraServer ที่นำมาใช้ใน EC2 UltraClusters เชื่อมต่อกันกับเครือข่าย EFA ในระดับ petabit เพื่อปรับปรุงประสิทธิภาพสำหรับเวิร์กโหลดการฝึกแบบกระจาย

คุณสามารถใช้ EC2 UltraServers ร่วมกับโซลูชันการจัดเก็บข้อมูลประสิทธิภาพสูง เช่น Amazon FSx สำหรับ Lustre ซึ่งเป็นพื้นที่จัดเก็บข้อมูลร่วมกันที่มีการจัดการอย่างเต็มรูปแบบและสร้างขึ้นบนระบบไฟล์คู่ขนานประสิทธิภาพสูงที่ได้รับความนิยมสูงสุด คุณยังสามารถใช้พื้นที่เก็บข้อมูลที่คุ้มค่าแบบไม่จํากัดด้วย Amazon Simple Storage Service (Amazon S3)

EC2 UltraServers ถูกสร้างขึ้นบน AWS Nitro System ซึ่งเป็นคอลเล็กชันบล็อกการสร้างอันหลากหลายที่ถ่ายโอนฟังก์ชันการจำลองระบบเสมือนดั้งเดิมหลายอย่างไปยังฮาร์ดแวร์และซอฟต์แวร์เฉพาะ ซึ่ง Nitro จะมอบประสิทธิภาพสูง ความพร้อมใช้งานสูง และความปลอดภัยสูง และลดค่าใช้จ่ายในการจำลองระบบเสมือน

อินสแตนซ์ที่รองรับ

อินสแตนซ์ Trn2

อินสแตนซ์ Trn2ที่ขับเคลื่อนด้วยชิป AWS Trainium2 ในการกำหนดค่า Trn2 UltraServer (มีให้ใช้งานในเวอร์ชันทดลองใช้) ช่วยให้คุณสามารถปรับขนาดชิป Trainium2 ได้ถึง 64 ชิป ที่เชื่อมต่อกับ NeuronLink ซึ่งเป็นการเชื่อมต่อแบนด์วิดท์สูงที่มีเวลาแฝงต่ำสำหรับชิป AWS AI โดยเฉพาะ Trn2 UltraServer จะมอบประสิทธิภาพที่ล้ำหน้าใน Amazon EC2 สำหรับการฝึกและการอนุมานของ AI ช่วยสร้าง

เรียนรู้เพิ่มเติม

อินสแตนซ์ P6e-GB200

ด้วยการเร่งความเร็วผ่าน NVIDIA GB200 NVL72 อินสแตนซ์ P6e-GB200 ที่อยู่ในรูปแบบการกำหนดค่า UltraServer ช่วยให้คุณสามารถเข้าถึง Blackwell GPU ได้สูงสุดถึง 72 ตัวภายในโดเมน NVLink เดียว เพื่อใช้ประโยชน์จากการประมวลผล FP8 ได้ถึง 360 เพตะฟล็อปส์ (โดยไม่มีค่าที่เป็นศูนย์จำนวนมาก), หน่วยความจำแบนวิดท์สูงรวม 13.4 TB (HBM3e) และเครือข่าย Elastic Fabric Adapter (EFAv4) ที่มีความเร็วสูงสุดถึง 28.8 เทระบิตต่อวินาที อินสแตนซ์ P6e-GB200 มีให้ใช้งานใน UltraServer ตั้งแต่ 8 GPU ถึง 72 GPU เท่านั้น

เรียนรู้เพิ่มเติม