อินสแตนซ์ Amazon EC2 P5

อินสแตนซ์ที่ใช้ GPU ที่มีประสิทธิภาพสูงสุดสําหรับแอปพลิเคชันดีปเลิร์นนิงและ HPC

เหตุใดจึงต้องใช้อินสแตนซ์ Amazon EC2 P5

อินสแตนซ์ Amazon Elastic Compute Cloud (Amazon EC2) P5 ขับเคลื่อนโดย NVIDIA H100 Tensor Core GPU และอินสแตนซ์ P5e และ P5en ขับเคลื่อนโดย NVIDIA H200 Tensor Core GPU มอบประสิทธิภาพสูงสุดใน Amazon EC2 สำหรับดีปเลิร์นนิง (DL) และแอปพลิเคชันการประมวลผลประสิทธิภาพสูง (HPC) ซึ่งช่วยให้คุณเร่งเวลาสู่โซลูชันได้มากถึง 4 เท่าเมื่อเทียบกับอินสแตนซ์ EC2 ที่ใช้ GPU รุ่นก่อนหน้า และลดค่าใช้จ่ายในการฝึกโมเดล ML ถึง 40% อินสแตนซ์เหล่านี้ช่วยให้คุณทําซ้ำในโซลูชันของคุณเร็วขึ้นและออกสู่ตลาดเร็วขึ้น คุณสามารถใช้อินสแตนซ์ P5, P5e และ P5en สําหรับการฝึกและการนำโมเดลภาษาขนาดใหญ่ (LLM) ที่ซับซ้อนมากขึ้นและโมเดลการแพร่กระจายที่ขับเคลื่อนโดยแอปพลิเคชันปัญญาประดิษฐ์ (AI) ช่วยสร้างที่มีความต้องการมากที่สุดไปใช้จริง แอปพลิเคชันเหล่านี้ ได้แก่ การตอบคำถาม การสร้างโค้ด การสร้างวิดีโอและรูปภาพ และการรู้จำเสียงพูด คุณยังสามารถใช้อินสแตนซ์เหล่านี้เพื่อนำแอปพลิเคชัน HPC ที่มีความต้องการสูงตามขนาดไปใช้จริงในการค้นพบทางเภสัชกรรม การวิเคราะห์แผ่นดินไหว การพยากรณ์อากาศ และการสร้างแบบจําลองทางการเงิน

อินสแตนซ์ P5 และ P5e ใช้ NVIDIA H100 และ H200 Tensor Core GPU ที่มีประสิทธิภาพ CPU ที่สูงถึง 2 เท่า หน่วยความจำระบบที่มากถึง 2 เท่า และพื้นที่เก็บข้อมูลในเครื่องที่มากถึง 4 เท่า เมื่อเทียบกับอินสแตนซ์ที่ใช้ GPU รุ่นก่อนหน้า เพื่อมอบการปรับปรุงประสิทธิภาพและประหยัดค่าใช้จ่าย อินสแตนซ์ P5en ผสาน NVIDIA H200 Tensor Core GPU เข้ากับ Intel Sapphire Rapids CPU ประสิทธิภาพสูง โดยทำให้สามารถรองรับการเชื่อมต่อ Gen5 PCIe ระหว่าง CPU และ GPU อินสแตนซ์ P5en มอบแบนด์วิดท์ระหว่าง CPU และ GPU สูงขึ้นถึง 4 เท่า และลดความหน่วงของเครือข่ายเมื่อเทียบกับอินสแตนซ์ P5e และ P5 จึงช่วยปรับปรุงประสิทธิภาพในการฝึกแบบกระจาย อินสแตนซ์ P5 และ P5e รองรับการให้บริการเครือข่ายสูงสุดถึง 3,200 Gbps โดยใช้ Elastic Fabric Adapter (EFA) รุ่นที่สอง อินสแตนซ์ P5en ที่มาพร้อมกับ Elastic Fabric Adapter (EFA) รุ่นที่สามและ Nitro v5 แสดงให้เห็นถึงการปรับปรุงความหน่วงได้สูงสุดถึง 35% เมื่อเทียบกับ P5 ซึ่งใช้ EFA รุ่นก่อนหน้าและ Nitro รุ่นก่อนหน้า สิ่งนี้จะช่วยปรับปรุงประสิทธิภาพการสื่อสารแบบรวมสำหรับเวิร์กโหลดการฝึกแบบกระจาย เช่น ดีปเลิร์นนิง AI ช่วยสร้าง การประมวลผลข้อมูลแบบเรียลไทม์ และแอปพลิเคชันการประมวลผลสมรรถนะสูง (HPC) เพื่อให้บริการการประมวลผลขนาดใหญ่ด้วยความหน่วงต่ำ อินสแตนซ์เหล่านี้ถูกใช้งานใน Amazon EC2 UltraClusters ซึ่งสามารถปรับขนาดได้สูงสุดถึง 20,000 GPU รุ่น H100 หรือ H200 ที่เชื่อมต่อผ่านเครือข่ายแบบไม่บล็อกในระดับเพตาบิต อินสแตนซ์ P5, P5e และ P5en ใน EC2 UltraClusters สามารถมอบความสามารถในการประมวลผลรวมสูงสุด 20 exaflop ซึ่งมีประสิทธิภาพเทียบเท่ากับซูเปอร์คอมพิวเตอร์

อินสแตนซ์ Amazon EC2 P5

ประโยชน์

คุณสมบัติ

คำชมเชยจากลูกค้า

นี่คือตัวอย่างบางส่วนของวิธีที่ลูกค้าและพันธมิตรบรรลุเป้าหมายทางธุรกิจด้วยอินสแตนซ์ Amazon EC2 P4

  • Anthropic

    Anthropic สร้างระบบ AI ที่เชื่อถือได้ ตีความได้ และควบคุมทิศทางได้ซึ่งจะมีโอกาสมากมายในการสร้างมูลค่าเชิงพาณิชย์และสาธารณประโยชน์

    ที่ Anthropic เรากําลังทํางานเพื่อสร้างระบบ AI ที่เชื่อถือได้ ตีความได้ และควบคุมทิศทางได้ แม้ว่าระบบ AI ขนาดใหญ่ทั่วไปในปัจจุบันจะมีประโยชน์อย่างมาก แต่ก็อาจคาดเดาไม่ได้ ไม่น่าเชื่อถือ และคลุมเครือ เป้าหมายของเราคือปรับปรุงปัญหาเหล่านี้และนำระบบไปใช้จริงในทางที่มีผู้คนเห็นว่าเป็นประโยชน์ องค์กรของเราเป็นหนึ่งในไม่กี่แห่งในโลกที่กําลังสร้างโมเดลพื้นฐานในการวิจัย DL โมเดลเหล่านี้มีความซับซ้อนสูง และเพื่อพัฒนาและฝึกโมเดลที่ทันสมัยเหล่านี้ เราจําเป็นต้องกระจายอย่างมีประสิทธิภาพให้ทั่วคลัสเตอร์ GPU ขนาดใหญ่ ในตอนนี้เราใช้อินสแตนซ์ Amazon EC2 P4 ที่หลากหลาย และเรารู้สึกตื่นเต้นกับการเปิดตัวอินสแตนซ์ P5 เราหวังว่าอินสแตนซ์ดังกล่าวจะมอบประโยชน์ด้านประสิทธิภาพต่อราคาที่ดีกว่าอินสแตนซ์ P4d อย่างเห็นได้ชัด และมีขนาดใหญ่ซึ่งจําเป็นในการสร้าง LLM รุ่นถัดไปและผลิตภัณฑ์ที่เกี่ยวข้อง

    Tom Brown ผู้ร่วมก่อตั้ง Anthropic
  • Cohere

    Cohere ผู้บุกเบิกชั้นนําด้าน AI ภาษา ช่วยส่งเสริมศักยภาพให้กับนักพัฒนาและองค์กรต่างๆ ในการสร้างผลิตภัณฑ์ที่น่าทึ่งด้วยเทคโนโลยีการประมวลผลภาษาธรรมชาติ (NLP) ชั้นนําของโลกในขณะที่รักษาความเป็นส่วนตัวและความปลอดภัยของข้อมูล

    Cohere เป็นผู้นําในการช่วยให้ทุกองค์กรใช้ประโยชน์จากพลังของ AI ภาษาในการสํารวจ สร้าง ค้นหาและดําเนินการกับข้อมูลในลักษณะที่เป็นธรรมชาติและใช้งานง่าย การนำไปใช้จริงกับหลายแพลตฟอร์มระบบคลาวด์ในสภาพแวดล้อมข้อมูลที่ดีที่สุดสําหรับลูกค้าแต่ละราย อินสแตนซ์ Amazon EC2 P5 ที่ขับเคลื่อนโดย NVIDIA H100 จะปลดปล่อยความสามารถของธุรกิจในการสร้าง เติบโต และปรับขนาดที่เร็วขึ้นด้วยพลังการประมวลผลที่ทำงานรวมกับ LLM และ AI ช่วยสร้างอันล้ำสมัยของ Cohere

    Aidan Gomez CEO Cohere
  • Hugging Face

    Hugging Face มีพันธกิจในการสร้าง ML ที่ดีเพื่อทุกคน

    ในฐานะชุมชนแบบโอเพนซอร์สที่เติบโตเร็วที่สุดในด้าน ML ตอนนี้เรามีโมเดลที่ฝึกล่วงหน้ากว่า 150,000 รายการและชุดข้อมูล 25,000 รายการบนแพลตฟอร์มของเราสําหรับ NLP คอมพิวเตอร์วิชัน ชีววิทยา การเรียนรู้แบบเสริมแรง และอื่นๆ อีกมากมาย เนื่องจากความก้าวหน้าใน LLM และ AI ช่วยสร้างเป็นสิ่งสำคัญ เราจึงทํางานร่วมกับ AWS เพื่อสร้างและมีส่วนร่วมในโมเดลแบบโอเพนซอร์สแห่งอนาคต เราเฝ้ารอที่จะใช้อินสแตนซ์ Amazon EC2 P5 ผ่าน Amazon SageMaker สำหรับ UltraClusters ด้วย EFA เพื่อเร่งการส่งมอบโมเดล AI พื้นฐานใหม่สําหรับทุกคน

    Julien Chaumond CTO และผู้ร่วมก่อตั้ง Hugging Face

รายละเอียดผลิตภัณฑ์

ขนาดของอินสแตนซ์ vCPU หน่วยความจำของอินสแตนซ์ (TiB) GPU   หน่วยความจำ GPU แบนวิดท์เครือข่าย (Gbps) GPUDirect RDMA GPU แบบ Peer to Peer พื้นที่เก็บข้อมูลอินสแตนซ์ (TB) แบนวิดท์ EBS (Gbps)
p5.48xlarge 192 2 8 H100 640 GB
HBM3
3200 Gbps EFA ใช้ได้ NVSwitch 900 GB/วินาที 8 x 3.84 NVMe SSD 80
p5e.48xlarge 192 2 8 H200 1128 GB
HBM3e
3200 Gbps EFA ใช้ได้ NVSwitch 900 GB/วินาที 8 x 3.84 NVMe SSD 80
p5en.48xlarge 192 2 8 H200 1128 GB HBM3e 3200 Gbps EFA ใช้ได้ NVSwitch 900 GB/วินาที 8 x 3.84 NVMe SSD 100

เริ่มต้นใช้งานกรณีการใช้งาน ML

เริ่มต้นใช้งานกรณีการใช้งาน HPC

อินสแตนซ์ P5, P5e และ P5en คือแพลต์ฟอร์มที่สมบูรณ์แบบสำหรับการเรียกใช้การจำลองทางวิศวกรรม การเงินเชิงคำนวณ การวิเคราะห์แผ่นดินไหว การสร้างแบบจำลองโมเลกุล จีโนมิกส์ การเรนเดอร์ และเวิร์กโหลด HPC ที่ใช้ GPU อื่นๆ การใช้งาน HPC มักต้องการเครือข่ายที่มีประสิทธิภาพสูง การจัดเก็บที่รวดเร็ว หน่วยความจำปริมาณมาก ความสามารถในการประมวลผลสูง หรือทั้งหมดที่กล่าวมา อินสแตนซ์ทั้งสามประเภทดังกล่าวรองรับ EFA ที่ทำให้แอปพลิเคชัน HPC ที่ใช้ Message Passing Interface (MPI) สามารถปรับขนาดให้รองรับ GPU หลายพันตัวได้ AWS Batch และ AWS ParallelCluster ช่วยให้นักพัฒนา HPC สร้างและปรับขนาดแอปพลิเคชัน HPC แบบกระจายได้อย่างรวดเร็ว

เรียนรู้เพิ่มเติม