Amazon EC2

อินสแตนซ์ Amazon EC2 P5

อินสแตนซ์ที่ใช้ GPU ประสิทธิภาพสูงสําหรับแอปพลิเคชันดีปเลิร์นนิงและ HPC

เหตุใดจึงต้องใช้อินสแตนซ์ Amazon EC2 P5

อินสแตนซ์ Amazon Elastic Compute Cloud (Amazon EC2) P5 ขับเคลื่อนโดย NVIDIA H100 Tensor Core GPU และอินสแตนซ์ P5e และ P5en ขับเคลื่อนโดย NVIDIA H200 Tensor Core GPU มอบประสิทธิภาพสูงใน Amazon EC2 สำหรับดีปเลิร์นนิง (DL) และแอปพลิเคชันการประมวลผลประสิทธิภาพสูง (HPC) ซึ่งช่วยให้คุณเร่งเวลาสู่โซลูชันได้มากถึง 4 เท่าเมื่อเทียบกับอินสแตนซ์ EC2 ที่ใช้ GPU รุ่นก่อนหน้า และลดค่าใช้จ่ายในการฝึกโมเดล ML ถึง 40% อินสแตนซ์เหล่านี้ช่วยให้คุณทําซ้ำในโซลูชันของคุณเร็วขึ้นและออกสู่ตลาดเร็วขึ้น คุณสามารถใช้อินสแตนซ์ P5, P5e และ P5en สำหรับการฝึกและปรับใช้โมเดลภาษาขนาดใหญ่ (LLM) ที่ซับซ้อน และโมเดลการแพร่กระจายที่ขับเคลื่อนแอปพลิเคชัน AI ช่วยสร้าง แอปพลิเคชันเหล่านี้ ได้แก่ การตอบคำถาม การสร้างโค้ด การสร้างวิดีโอและรูปภาพ และการรู้จำเสียงพูด คุณยังสามารถใช้อินสแตนซ์เหล่านี้เพื่อนำแอปพลิเคชัน HPC ตามขนาดไปใช้จริงในการค้นพบทางเภสัชกรรม การวิเคราะห์แผ่นดินไหว การพยากรณ์อากาศ และการสร้างแบบจําลองทางการเงิน

อินสแตนซ์ P5 และ P5e ใช้ NVIDIA H100 และ H200 Tensor Core GPU ที่มีประสิทธิภาพ CPU ที่สูงถึง 2 เท่า หน่วยความจำระบบที่มากถึง 2 เท่า และพื้นที่เก็บข้อมูลในเครื่องที่มากถึง 4 เท่า เมื่อเทียบกับอินสแตนซ์ที่ใช้ GPU รุ่นก่อนหน้า เพื่อมอบการปรับปรุงประสิทธิภาพและประหยัดค่าใช้จ่าย อินสแตนซ์ P5en ผสาน NVIDIA H200 Tensor Core GPU เข้ากับ Intel Sapphire Rapids CPU ประสิทธิภาพสูง โดยทำให้สามารถรองรับการเชื่อมต่อ Gen5 PCIe ระหว่าง CPU และ GPU อินสแตนซ์ P5en มอบแบนด์วิดท์ระหว่าง CPU และ GPU สูงขึ้นถึง 4 เท่า และลดความหน่วงของเครือข่ายเมื่อเทียบกับอินสแตนซ์ P5e และ P5 จึงช่วยปรับปรุงประสิทธิภาพในการฝึกแบบกระจาย อินสแตนซ์ P5 และ P5e รองรับการให้บริการเครือข่ายสูงสุดถึง 3,200 Gbps โดยใช้ Elastic Fabric Adapter (EFA) รุ่นที่สอง อินสแตนซ์ P5en ที่มาพร้อมกับ Elastic Fabric Adapter (EFA) รุ่นที่สามและ Nitro v5 แสดงให้เห็นถึงการปรับปรุงความหน่วงได้สูงสุดถึง 35% เมื่อเทียบกับ P5 ซึ่งใช้ EFA รุ่นก่อนหน้าและ Nitro รุ่นก่อนหน้า สิ่งนี้จะช่วยปรับปรุงประสิทธิภาพการสื่อสารแบบรวมสำหรับเวิร์กโหลดการฝึกแบบกระจาย เช่น ดีปเลิร์นนิง AI ช่วยสร้าง การประมวลผลข้อมูลแบบเรียลไทม์ และแอปพลิเคชันการประมวลผลสมรรถนะสูง (HPC) เพื่อให้บริการการประมวลผลขนาดใหญ่ด้วยความหน่วงต่ำ อินสแตนซ์เหล่านี้ถูกใช้งานใน Amazon EC2 UltraClusters ซึ่งสามารถปรับขนาดได้สูงสุดถึง 20,000 GPU รุ่น H100 หรือ H200 ที่เชื่อมต่อผ่านเครือข่ายแบบไม่บล็อกในระดับเพตาบิต อินสแตนซ์ P5, P5e และ P5en ใน EC2 UltraClusters สามารถมอบความสามารถในการประมวลผลรวมสูงสุด 20 exaflop ซึ่งมีประสิทธิภาพเทียบเท่ากับซูเปอร์คอมพิวเตอร์

อินสแตนซ์ Amazon EC2 P5

ประโยชน์

อินสแตนซ์ P5, P5e และ P5en สามารถฝึกโมเดล AI ช่วยสร้างที่มีขนาดที่เหมาะสมและมอบประสิทธิภาพสูงสุด 4 เท่าเมื่อเทียบกับอินสแตนซ์ EC2 ที่ใช้ GPU รุ่นก่อนหน้า

อินสแตนซ์ P5, P5e และ P5en ช่วยลดเวลาฝึกและเวลาสู่โซลูชันจากสัปดาห์เหลือเพียงไม่กี่วัน ซึ่งช่วยให้คุณทําซ้ำเร็วขึ้นและออกสู่ตลาดเร็วขึ้น

อินสแตนซ์ P5, P5e และ P5en ช่วยประหยัดค่าใช้จ่ายในการฝึก DL และโครงสร้างพื้นฐาน HPC ถึง 40% เมื่อเทียบกับอินสแตนซ์ EC2 ที่ใช้ GPU รุ่นก่อนหน้า

อินสแตนซ์ P5, P5e และ P5en สามารถให้ประสิทธิภาพเครือข่าย EFA ได้สูงสุดถึง 3,200 Gbps อินสแตนซ์เหล่านี้ถูกนำไปใช้จริงใน EC2 UltraClusters และมอบความสามารถในการประมวลผลรวม 20 exaflop

คุณสมบัติ

อินสแตนซ์ P5 มี NVIDIA H100 GPU สูงสุด 8 ตัว พร้อมหน่วยความจํา GPU HBM3 สูงสุด 640 GB ต่ออินสแตนซ์ อินสแตนซ์ P5e และ P5en มี NVIDIA H200 GPU สูงสุด 8 ตัว โดยมีหน่วยความจำ GPU HBM3e รวมสูงสุด 1128 GB ต่ออินสแตนซ์ อินสแตนซ์ทั้งสองรองรับการเชื่อมต่อ NVSwitch GPU สูงสุด 900 GB/s (แบนวิดท์แบบสองส่วนรวม 3.6 TB/วินาทีในแต่ละอินสแตนซ์) เพื่อให้แต่ละ GPU สามารถสื่อสารกับ GPU อื่นๆ ในอินสแตนซ์เดียวกันโดยมีเวลาแฝงแบบฮอปเดียว

NVIDIA H100 และ H200 GPU มีกลไกตัวแปลงข้อมูลที่จัดการอย่างชาญฉลาดและเลือกแบบไดนามิกระหว่างการคํานวณ FP8 และ 16 บิต คุณสมบัตินี้ช่วยให้การฝึก DL เร็วขึ้นบน LLM เมื่อเทียบกับ GPU A100 รุ่นก่อนหน้า NVIDIA H100 และ H200 GPU มีคำสั่ง DPX ใหม่ที่เพิ่มความเร็วอัลกอริทึมการเขียนโปรแกรมแบบไดนามิกเมื่อเทียบกับ A100 GPU สําหรับเวิร์กโหลด HPC

อินสแตนซ์ P5, P5e และ P5en สามารถมอบประสิทธิภาพเครือข่าย EFA ได้สูงสุดถึง 3,200 Gbps EFA ยังทํางานร่วมกับ NVIDIA GPUDirect RDMA เพื่อเปิดใช้การสื่อสาร GPU กับ GPU ที่มีเวลาแฝงต่ำระหว่างเซิร์ฟเวอร์ที่มีการบายพาสระบบปฏิบัติการ

อินสแตนซ์ P5, P5e และ P5en รองรับระบบไฟล์ Amazon FSx สำหรับ Lustre เพื่อให้คุณเข้าถึงข้อมูลที่มีอัตราการโอนถ่ายข้อมูลหลายร้อย GB/s และ IOPS นับล้านที่จําเป็นสําหรับเวิร์กโหลด DL และ HPC ขนาดใหญ่ แต่ละอินสแตนซ์ยังรองรับพื้นที่เก็บข้อมูล NVMe SSD ภายในสูงสุด 30 TB เพื่อช่วยสามารถให้เข้าถึงชุดข้อมูลขนาดใหญ่ได้อย่างรวดเร็วอีกด้วย คุณยังสามารถใช้พื้นที่เก็บข้อมูลที่คุ้มค่าแบบไม่จํากัดด้วย Amazon Simple Storage Service (Amazon S3)

คำชมเชยจากลูกค้า

นี่คือตัวอย่างบางส่วนของวิธีที่ลูกค้าและพันธมิตรบรรลุเป้าหมายทางธุรกิจด้วยอินสแตนซ์ Amazon EC2 P4

Anthropic

ที่ Anthropic เรากําลังทํางานเพื่อสร้างระบบ AI ที่เชื่อถือได้ ตีความได้ และควบคุมทิศทางได้ แม้ว่าระบบ AI ขนาดใหญ่ทั่วไปในปัจจุบันจะมีประโยชน์อย่างมาก แต่ก็อาจคาดเดาไม่ได้ ไม่น่าเชื่อถือ และคลุมเครือ เป้าหมายของเราคือปรับปรุงปัญหาเหล่านี้และนำระบบไปใช้จริงในทางที่มีผู้คนเห็นว่าเป็นประโยชน์ องค์กรของเราเป็นหนึ่งในไม่กี่แห่งในโลกที่กําลังสร้างโมเดลพื้นฐานในการวิจัย DL โมเดลเหล่านี้มีความซับซ้อนสูง และเพื่อพัฒนาและฝึกโมเดลที่ทันสมัยเหล่านี้ เราจําเป็นต้องกระจายอย่างมีประสิทธิภาพให้ทั่วคลัสเตอร์ GPU ขนาดใหญ่ ในตอนนี้เราใช้อินสแตนซ์ Amazon EC2 P4 ที่หลากหลาย และเรารู้สึกตื่นเต้นกับการเปิดตัวอินสแตนซ์ P5 เราหวังว่าอินสแตนซ์ดังกล่าวจะมอบประโยชน์ด้านประสิทธิภาพต่อราคาที่ดีกว่าอินสแตนซ์ P4d อย่างเห็นได้ชัด และมีขนาดใหญ่ซึ่งจําเป็นในการสร้าง LLM รุ่นถัดไปและผลิตภัณฑ์ที่เกี่ยวข้อง

Tom Brown ผู้ร่วมก่อตั้ง Anthropic

AON

ที่ AON เรากำลังปฏิวัติวิธีที่บริษัทประกันภัยก้าวเข้าสู่ความท้าทายเชิงคำนวณที่ซับซ้อน การคาดการณ์ทางคณิตศาสตร์ประกันภัยจำเป็นต้องมีการจำลองเพิ่มเติมเพื่อสร้างแบบจำลองความเสี่ยงและการรับประกันทางการเงินที่ซับซ้อน แต่ระบบที่ล้าสมัยที่ตัดการเชื่อมต่อและงานด้วยตนเองที่มีแนวโน้มที่จะเกิดข้อผิดพลาด จำกัด การวิเคราะห์อย่างละเอียด อินสแตนซ์ Amazon EC2 P5 ได้เปลี่ยนเกมสำหรับเรา ตอนนี้เราสามารถเรียกใช้โมเดลแมชชีนเลิร์นนิงและการคาดการณ์ทางเศรษฐกิจที่เคยใช้เวลาหลายวันในเวลาเพียงไม่กี่ชั่วโมง ความสามารถในการใช้อินสแตนซ์ GPU H100 เดียว (p5.4xlarge) หมายความว่าเราไม่เพียงแต่ประหยัดเวลาได้เท่านั้น แต่ยังเพิ่มประสิทธิภาพทรัพยากรการคำนวณของเราด้วย ลูกค้าของเราได้เห็นข้อมูลเชิงลึกที่ไม่เคยมีมาก่อนเกี่ยวกับการจัดการความเสี่ยงและการกำหนดราคาผลิตภัณฑ์ ทั้งหมดนี้ต้องขอบคุณเทคโนโลยีที่ก้าวหน้านี้

Van Beach, Global Head ของ Life Solutions, AON

Cohere

Cohere เป็นผู้นําในการช่วยให้ทุกองค์กรใช้ประโยชน์จากพลังของ AI ภาษาในการสํารวจ สร้าง ค้นหาและดําเนินการกับข้อมูลในลักษณะที่เป็นธรรมชาติและใช้งานง่าย การนำไปใช้จริงกับหลายแพลตฟอร์มระบบคลาวด์ในสภาพแวดล้อมข้อมูลที่ดีที่สุดสําหรับลูกค้าแต่ละราย อินสแตนซ์ Amazon EC2 P5 ที่ขับเคลื่อนโดย NVIDIA H100 จะปลดปล่อยความสามารถของธุรกิจในการสร้าง เติบโต และปรับขนาดที่เร็วขึ้นด้วยพลังการประมวลผลที่ทำงานรวมกับ LLM และ AI ช่วยสร้างอันล้ำสมัยของ Cohere

Aidan Gomez CEO Cohere

Hugging Face

ในฐานะชุมชนแบบโอเพนซอร์สที่เติบโตเร็วที่สุดในด้าน ML ตอนนี้เรามีโมเดลที่ฝึกล่วงหน้ากว่า 150,000 รายการและชุดข้อมูล 25,000 รายการบนแพลตฟอร์มของเราสําหรับ NLP คอมพิวเตอร์วิชัน ชีววิทยา การเรียนรู้แบบเสริมแรง และอื่นๆ อีกมากมาย เนื่องจากความก้าวหน้าใน LLM และ AI ช่วยสร้างเป็นสิ่งสำคัญ เราจึงทํางานร่วมกับ AWS เพื่อสร้างและมีส่วนร่วมในโมเดลแบบโอเพนซอร์สแห่งอนาคต เราเฝ้ารอที่จะใช้อินสแตนซ์ Amazon EC2 P5 ผ่าน Amazon SageMaker สำหรับ UltraClusters ด้วย EFA เพื่อเร่งการส่งมอบโมเดล AI พื้นฐานใหม่สําหรับทุกคน

Julien Chaumond CTO และผู้ร่วมก่อตั้ง Hugging Face

รายละเอียดผลิตภัณฑ์

Instance Size	vCPUs	Instance Memory	GPU	GPU memory	Network Bandwidth (Gbps)	GPUDirect RDMA	GPU Peer to Peer	Instance Storage (TB)	EBS Bandwidth (Gbps)
p5.4xlarge	16	256 GiB	1 H100	80 GB HBM3	100 Gbps EFA	ไม่*	ไม่เกี่ยวข้อง*	3.84 NVMe SSD	10
p5.48xlarge	192	2 TiB	8 H100	640 GB HBM3	3200 Gbps EFA	ใช้ได้	NVSwitch 900 GB/วินาที	8 x 3.84 NVMe SSD	80
p5e.48xlarge	192	2 TiB	8 H200	1128 GB HBM3e	3200 Gbps EFA	ใช้ได้	NVSwitch 900 GB/วินาที	8 x 3.84 NVMe SSD	80
p5en.48xlarge	192	2 TiB	8 H200	1128 GB HBM3e	3200 Gbps EFA	ใช้ได้	NVSwitch 900 GB/วินาที	8 x 3.84 NVMe SSD	100

* GPUDirect RDMA ไม่รองรับใน P5.4xLarge

เริ่มต้นใช้งานกรณีการใช้งาน ML

SageMaker คือบริการที่มีการจัดการเต็มรูปแบบซึ่งใช้ในการสร้าง การฝึก และการนำโมเดล ML ไปใช้จริง ด้วย SageMaker HyperPod ลูกค้าจะสามารถปรับขนาด GPU เป็นสิบ ร้อย และพันเพื่อฝึกโมเดลในทุกขนาดได้อย่างรวดเร็วโดยไม่ต้องกังวลเกี่ยวกับการตั้งค่าและการจัดการคลัสเตอร์การฝึกอบรมที่มีความทนทาน

DLAMI มอบโครงสร้างพื้นฐานและเครื่องมือต่าง ๆ ให้กับผู้ปฏิบัติงานและนักวิจัย ML เพื่อเร่ง DL ในระบบคลาวด์ในทุกขนาด Deep Learning Containers เป็น Docker Image ที่ติดตั้งล่วงหน้าด้วยเฟรมเวิร์ก DL เพื่อปรับปรุงการนำสภาพแวดล้อม ML แบบกําหนดเองไปใช้จริงโดยช่วยคุณข้ามกระบวนการที่ซับซ้อนในการสร้างและปรับสภาพแวดล้อมของคุณให้เหมาะสมตั้งแต่เริ่มต้น

หากคุณต้องการจัดการเวิร์กโหลดที่ใช้กับคอนเทนเนอร์ของคุณเองผ่านบริการควบคุมระบบคอนเทนเนอร์ คุณสามารถนำอินสแตนซ์ P5, P5e และ P5en ไปใช้จริงกับ Amazon EKS หรือ Amazon ECS

เริ่มต้นใช้งานกรณีการใช้งาน HPC

อินสแตนซ์ P5, P5e และ P5en คือแพลต์ฟอร์มที่สมบูรณ์แบบสำหรับการเรียกใช้การจำลองทางวิศวกรรม การเงินเชิงคำนวณ การวิเคราะห์แผ่นดินไหว การสร้างแบบจำลองโมเลกุล จีโนมิกส์ การเรนเดอร์ และเวิร์กโหลด HPC ที่ใช้ GPU อื่นๆ การใช้งาน HPC มักต้องการเครือข่ายที่มีประสิทธิภาพสูง การจัดเก็บที่รวดเร็ว หน่วยความจำปริมาณมาก ความสามารถในการประมวลผลสูง หรือทั้งหมดที่กล่าวมา อินสแตนซ์ทั้งสามประเภทดังกล่าวรองรับ EFA ที่ทำให้แอปพลิเคชัน HPC ที่ใช้ Message Passing Interface (MPI) สามารถปรับขนาดให้รองรับ GPU หลายพันตัวได้ AWS Batch และ AWS ParallelCluster ช่วยให้นักพัฒนา HPC สร้างและปรับขนาดแอปพลิเคชัน HPC แบบกระจายได้อย่างรวดเร็ว

เรียนรู้เพิ่มเติม

เริ่มต้นใช้งาน AWS

ขั้นตอนที่ 1: ลงชื่อสมัครใช้งานบัญชี AWS

รับสิทธิ์การเข้าถึง AWS Free Tier ได้ทันที

เรียนรู้เพิ่มเติม

ขั้นตอนที่ 2 - เรียนรู้จากบทแนะนำสอนการใช้งาน 10 นาที

สำรวจและเรียนรู้จากบทแนะนำสอนการใช้งานอย่างง่าย

เรียนรู้เพิ่มเติม

ขั้นตอนที่ 3 - เริ่มต้นสร้างด้วย AWS

เริ่มต้นสร้างด้วยคำแนะนำแบบทีละขั้นตอนเพื่อช่วยในการเปิดใช้โปรเจกต์ AWS ของคุณ

เรียนรู้เพิ่มเติม

อินสแตนซ์ Amazon EC2 P5

เหตุใดจึงต้องใช้อินสแตนซ์ Amazon EC2 P5

อินสแตนซ์ Amazon EC2 P5

ประโยชน์

ฝึกโมเดลพารามิเตอร์ 100B+ ตามขนาด

ลดเวลาสู่โซลูชันและทําซ้ำเร็วขึ้น

ลดต้นทุนโครงสร้างพื้นฐาน DL และ HPC ของคุณ

เรียกใช้การฝึกแบบกระจายและ HPC ด้วยการประมวลผล Exascale

คุณสมบัติ

NVIDIA H100 และ H200 Tensor Core GPU

คำสั่งกลไก Transformer และ DPX ใหม่

ระบบเครือข่ายประสิทธิภาพสูง

พื้นที่เก็บข้อมูลประสิทธิภาพสูง

คำชมเชยจากลูกค้า

Anthropic

AON

Cohere

Hugging Face

รายละเอียดผลิตภัณฑ์

เริ่มต้นใช้งานกรณีการใช้งาน ML

การใช้ SageMaker

การใช้ DLAMI หรือ Deep Learning Containers

การใช้ Amazon EKS หรือ Amazon ECS

เริ่มต้นใช้งานกรณีการใช้งาน HPC

เริ่มต้นใช้งาน AWS

ขั้นตอนที่ 1: ลงชื่อสมัครใช้งานบัญชี AWS

ขั้นตอนที่ 2 - เรียนรู้จากบทแนะนำสอนการใช้งาน 10 นาที

ขั้นตอนที่ 3 - เริ่มต้นสร้างด้วย AWS

เรียนรู้

ทรัพยากร

นักพัฒนา

ความช่วยเหลือ