- Amazon EC2›
- ประเภทอินสแตนซ์›
- อินสแตนซ์ P4
อินสแตนซ์ P4 ของ Amazon EC2
ประสิทธิภาพสูงสำหรับการฝึกอบรม ML และแอปพลิเคชัน HPC บนคลาวด์
เหตุใดจึงควรเลือกใช้อินสแตนซ์ Amazon EC2 P4
อินสแตนซ์ P4d ของ Amazon Elastic Compute Cloud (Amazon EC2) มอบประสิทธิภาพสูงสำหรับการฝึกแมชชีนเลิร์นนิง (ML) และแอปพลิเคชันการประมวลผลประสิทธิภาพสูง (HPC) ในระบบคลาวด์ อินสแตนซ์ P4d ขับเคลื่อนโดย GPU NVIDIA A100 Tensor Core และส่งมอบปริมาณงานสูงชั้นนำของอุตสาหกรรมและเครือข่ายล่าช้าต่ำ อินสแตนซ์เหล่านี้รองรับเครือข่ายอินสแตนซ์ 400 Gbps อินสแตนซ์ P4d ช่วยลดต้นทุนในการฝึกโมเดล ML ได้ถึง 60% รวมถึงประสิทธิภาพที่ดีขึ้นโดยเฉลี่ย 2.5 เท่าสำหรับโมเดลดีปเลิร์นนิงเมื่อเปรียบเทียบกับอินสแตนซ์ P3 และ P3dn รุ่นก่อนหน้า
อินสแตนซ์ P4d ถูกนำไปใช้ในคลัสเตอร์ที่เรียกว่า Amazon EC2 UltraClusters ซึ่งประกอบด้วยการประมวลผล เครือข่าย และการจัดเก็บข้อมูลในระบบคลาวด์ประสิทธิภาพสูง EC2 UltraCluster แต่ละเครื่องถือเป็นซูเปอร์คอมพิวเตอร์ที่มีประสิทธิภาพสูงสุดเครื่องหนึ่งในโลก ช่วยให้คุณสามารถรันการฝึกอบรม ML แบบมัลติโหนดที่ซับซ้อนที่สุดและเวิร์กโหลด HPC แบบกระจายได้ คุณสามารถปรับขนาดได้อย่างง่ายดายตั้งแต่ไม่กี่ตัวไปจนถึงหลายพัน GPU NVIDIA A100 ใน EC2 UltraClusters ตามความต้องการของโครงการ ML หรือ HPC ของคุณ
นักวิจัย นักวิทยาศาสตร์ข้อมูล และนักพัฒนาสามารถใช้อินสแตนซ์ P4d เพื่อฝึกโมเดล ML สำหรับกรณีการใช้งานเช่นการประมวลผลภาษาธรรมชาติ การตรวจจับและการจำแนกวัตถุ และกลไกการแนะนำ นอกจากนี้ยังสามารถใช้เพื่อรันแอปพลิเคชัน HPC เช่น การค้นพบยา การวิเคราะห์แผ่นดินไหว และการสร้างแบบจำลองทางการเงิน ต่างจากระบบภายในสถานที่ คุณสามารถเข้าถึงการประมวลผลและความจุจัดเก็บข้อมูลที่แทบไม่มีขีดจำกัด ปรับขนาดโครงสร้างพื้นฐานของคุณตามความต้องการทางธุรกิจ และสร้างงานฝึกอบรม ML แบบหลายโหนดหรือแอปพลิเคชัน HPC แบบกระจายที่เชื่อมโยงกันอย่างแน่นหนาได้ในเวลาไม่กี่นาที โดยไม่ต้องมีค่าใช้จ่ายในการตั้งค่าหรือบำรุงรักษาใดๆ
ประกาศเปิดตัวอินสแตนซ์ Amazon EC2 P4d ใหม่
ประโยชน์
ด้วย GPU NVIDIA A100 Tensor Core รุ่นล่าสุด อินสแตนซ์ P4d แต่ละอินสแตนซ์ ให้ประสิทธิภาพ DL ที่ดีขึ้นโดยเฉลี่ย 2.5 เท่าเมื่อเทียบกับอินสแตนซ์ P3 รุ่นก่อนหน้า EC2 UltraClusters ของอินสแตนซ์ P4d ช่วยให้นักพัฒนา นักวิทยาศาสตร์ข้อมูล และนักวิจัยทั่วไปสามารถรันเวิร์กโหลด ML และ HPC ที่ซับซ้อนที่สุดได้ โดยให้สิทธิ์เข้าถึงประสิทธิภาพระดับซูเปอร์คอมพิวเตอร์โดยไม่ต้องมีค่าใช้จ่ายล่วงหน้าหรือภาระผูกพันในระยะยาว เวลาในการฝึกอบรมที่ลดลงด้วยอินสแตนซ์ P4d ช่วยเพิ่มประสิทธิภาพการทำงาน ช่วยให้นักพัฒนามุ่งเน้นไปที่ภารกิจหลักในการสร้างอัจฉริยะ ML ลงในแอปพลิเคชันทางธุรกิจ
นักพัฒนาสามารถปรับขนาดได้ถึง GPU มากถึงหลายพันรายการได้อย่างราบรื่นด้วยอินสแตนซ์ EC2 UltraClusters ของ P4d เครือข่ายความเร็วสูงและหน่วงแฝงต่ำพร้อมรองรับเครือข่ายอินสแตนซ์ 400 Gbps, Elastic Fabric Adapter (EFA) และเทคโนโลยี GPUDirect RDMA ช่วยฝึกโมเดล ML อย่างรวดเร็วโดยใช้เทคนิคการสเกลเอาต์/กระจาย EFA ใช้ NVIDIA Collective Communications Library (NCCL) เพื่อปรับขนาดเป็น GPU หลายพันตัว และเทคโนโลยี GPUDirect RDMA ช่วยให้การสื่อสาร GPU-to-GPU ความหน่วงต่ำระหว่างอินสแตนซ์ P4d
อินสแตนซ์ P4d ให้ต้นทุนในการฝึกโมเดล ML ลดลงถึง 60% เมื่อเทียบกับอินสแตนซ์ P3 นอกจากนี้ อินสแตนซ์ P4d ยังสามารถซื้อเป็น Spot Instance ได้ Spot Instance ใช้ประโยชน์จากความจุอินสแตนซ์ EC2 ที่ไม่ได้ใช้งาน และสามารถลดต้นทุน EC2 ของคุณได้อย่างมาก โดยมีส่วนลดมากถึง 90% จากราคาแบบตามความต้องการ ด้วยต้นทุนที่ลดลงของการฝึกอบรม ML ด้วยอินสแตนซ์ P4d จึงสามารถจัดสรรงบประมาณเพื่อสร้างระบบอัจฉริยะ ML ให้มากขึ้นในแอปพลิเคชันทางธุรกิจ
AWS Deep Learning AMI (DLAMI) และ Amazon Deep Learning Containers ช่วยให้ปรับใช้สภาพแวดล้อม P4d DL ได้ง่ายขึ้นในไม่กี่นาทีเนื่องจากมีไลบรารีและเครื่องมือเฟรมเวิร์ก DL ที่จำเป็น คุณยังสามารถเพิ่มไลบรารีและเครื่องมือของคุณเองลงในภาพเหล่านี้ได้ง่ายขึ้น อินสแตนซ์ P4d รองรับเฟรมเวิร์ก ML ยอดนิยม เช่น TensorFlow, PyTorch และ MXnet นอกจากนี้ อินสแตนซ์ P4d ยังได้รับการสนับสนุนโดยบริการ AWS หลักสำหรับ ML การจัดการ และการจัดระเบียบ เช่น Amazon SageMaker, Amazon Elastic Kubernetes Service (Amazon EKS), Amazon Elastic Container Service (Amazon ECS), AWS Batch และ AWS ParallelCluster
คุณสมบัติ
NVIDIA A100 Tensor Core GPU ให้การเร่งความเร็วที่ไม่เคยมีมาก่อนในระดับสำหรับ ML และ HPC Tensor Cores รุ่นที่สามของ NVIDIA A100 ช่วยเร่งเวิร์กโหลดที่แม่นยำทุกครั้ง เร่งเวลาในการสร้างข้อมูลเชิงลึกและเวลาในการวางตลาด GPU A100 แต่ละตัวมีประสิทธิภาพในการคำนวณมากกว่า 2.5 เท่าเมื่อเทียบกับ GPU V100 รุ่นก่อนหน้าและมาพร้อมกับหน่วยความจำ GPU ที่มีประสิทธิภาพสูง 40 GB HBM2 (ในอินสแตนซ์ P4d) หรือ 80 GB HBM2e (ในอินสแตนซ์ P4de) หน่วยความจำ GPU ที่สูงขึ้นเป็นประโยชน์โดยเฉพาะอย่างยิ่งสำหรับการฝึกอบรมเวิร์กโหลดบนชุดข้อมูลขนาดใหญ่ของข้อมูลความละเอียดสูง GPU NVIDIA A100 ใช้ปริมาณการเชื่อมต่อระหว่างกัน NVSwitch GPU เพื่อให้ GPU แต่ละตัวสามารถสื่อสารกับ GPU อื่นๆ ในอินสแตนซ์เดียวกันที่ปริมาณงานสองทิศทางเดียวกัน 600 Gb/s และด้วยความล่าช้าแบบฮอปแบบเดียว
อินสแตนซ์ P4d ให้บริการเครือข่าย 400 Gbps เพื่อช่วยให้ลูกค้าปรับขนาดเวิร์กโหลดแบบกระจายได้ดีขึ้น เช่น การฝึกอบรมมัลติโนดอย่างมีประสิทธิภาพมากขึ้นด้วยเครือข่ายปริมาณสูงระหว่างอินสแตนซ์ P4d รวมถึงระหว่างอินสแตนซ์ P4d และบริการจัดเก็บข้อมูล เช่น Amazon Simple Storage Service (Amazon S3) และ FSx for Lustre EFA เป็นอินเทอร์เฟซเครือข่ายที่กำหนดเองที่ออกแบบโดย AWS เพื่อช่วยปรับขนาดแอปพลิเคชัน ML และ HPC ไปยัง GPU หลายพันตัว เพื่อลดเวลาแฝงเพิ่มเติม EFA ยังทำงานร่วมกับ NVIDIA GPUDirect RDMA เพื่อเปิดใช้งานการสื่อสารระหว่าง GPU กับ GPU ที่มีค่าหน่วงเวลาต่ำระหว่างเซิร์ฟเวอร์โดยมีการบายพาสระบบปฏิบัติการ
เข้าถึงพื้นที่จัดเก็บข้อมูลสูงขนาดเพตาไบต์และหน่วงเวลาต่ำด้วย FSx for Lustre หรือพื้นที่จัดเก็บข้อมูลที่คุ้มค่าแทบไม่ จำกัด ด้วย Amazon S3 ที่ความเร็ว 400 Gbps สำหรับเวิร์กโหลดที่ต้องการเข้าถึงชุดข้อมูลขนาดใหญ่ได้อย่างรวดเร็ว อินสแตนซ์ P4d แต่ละอินสแตนซ์ยังรวมถึงพื้นที่จัดเก็บ SSD ที่ใช้ NVME ขนาด 8 TB พร้อมปริมาณการอ่าน 16 GB/s
อินสแตนซ์ P4d สร้างขึ้นบน AWS Nitro System ซึ่งเป็นคอลเลกชันบล็อกการสร้างที่ครบถ้วนซึ่งถ่ายโอนฟังก์ชันการจำลองระบบเสมือนแบบดั้งเดิมจำนวนมากไปยังฮาร์ดแวร์และซอฟต์แวร์เฉพาะเพื่อมอบประสิทธิภาพสูง ความพร้อมใช้งานสูง และความปลอดภัยสูง ในขณะที่ลดค่าโสหุ้ยในการจำลองระบบเสมือน
คำชมเชยจากลูกค้า
นี่คือตัวอย่างบางส่วนของวิธีที่ลูกค้าและพันธมิตรบรรลุเป้าหมายทางธุรกิจด้วยอินสแตนซ์ Amazon EC2 P4
Toyota Research Institute (TRI)
สามโฆษณา
สามโฆษณา
GE Healthcare
HEAVY.AI
บริษัท ซีโนเทค จำกัด
ออน
Rad AI
รายละเอียดผลิตภัณฑ์
|
ขนาดของอินสแตนซ์
|
vCPU
|
หน่วยความจำของอินสแตนซ์ (GiB)
|
GPU – A100
|
หน่วยความจำ GPU
|
แบนวิดท์เครือข่าย (Gbps)
|
GPUDirect RDMA
|
GPU แบบ Peer to Peer
|
พื้นที่เก็บข้อมูลของอินสแตนซ์ (GB)
|
แบนด์วิดท์ EBS (Gbps)
|
|---|---|---|---|---|---|---|---|---|---|
|
p4d.24xlarge
|
96
|
1152
|
8
|
320 GB
HBM2 |
400 ENA และ EFA
|
ใช่
|
NVSwitch 600 GB/วินาที
|
8 x 1000 NVMe SSD
|
19
|
|
p4de.24xlarge
|
96
|
1152
|
8
|
640 GB
HBM2e |
400 ENA และ EFA
|
ใช่
|
NVSwitch 600 GB/วินาที
|
8 x 1000 NVMe SSD
|
19
|
การเริ่มต้นใช้งานอินสแตนซ์ P4d สําหรับ ML
Amazon SageMaker เป็นบริการที่มีการจัดการอย่างสมบูรณ์สำหรับการสร้าง ฝึกอบรม และการปรับใช้โมเดล ML เมื่อใช้งานร่วมกับอินสแตนซ์ P4d ลูกค้าจะสามารถปรับขนาด GPU นับสิบ ร้อย และพันหน่วย เพื่อฝึกฝนโมเดลในทุกขนาดได้อย่างรวดเร็วโดยไม่ต้องเป็นกังวลเกี่ยวกับการตั้งค่าคลัสเตอร์และไปป์ไลน์ของข้อมูล
DLAMI มอบ โครงสร้างพื้นฐานและเครื่องมือให้กับผู้ปฏิบัติงานและนักวิจัย ML เพื่อเร่งความเร็ว DL ในระบบคลาวด์ในทุกขนาด Deep Learning Contain ers เป็นภาพ Docker ที่ติดตั้งไว้ล่วงหน้าด้วยเฟรมเวิร์ก DL เพื่อให้ใช้งานสภาพแวดล้อม ML ที่กำหนดเองได้อย่างง่ายดายโดยให้คุณข้ามกระบวนการที่ซับซ้อนในการสร้างและเพิ่มประสิทธิภาพสภาพแวดล้อมของคุณตั้งแต่เริ่มต้น
การเริ่มต้นใช้งานอินสแตนซ์ P4d สําหรับ HPC
อินสแตนซ์ P4d เหมาะอย่างยิ่งสำหรับการรันการจำลองทางวิศวกรรม การเงินเชิงคำนวณ การวิเคราะห์แผ่นดินไหว การสร้างแบบจำลองโมเลกุล จีโนมิกส์ การเรนเดอร์ และเวิร์กโหลด HPC ที่ใช้ GPU อื่นๆ การใช้งาน HPC มักต้องการเครือข่ายที่มีประสิทธิภาพสูง การจัดเก็บที่รวดเร็ว หน่วยความจำปริมาณมาก ความสามารถในการประมวลผลสูง หรือทั้งหมดที่กล่าวมา อินสแตนซ์ P4d รองรับ EFA ที่ทำให้แอปพลิเคชัน HPC ที่ใช้ Message Passing Interface (MPI) สามารถปรับขนาดให้รองรับ GPU หลายพันตัวได้ AWS Batch และ AWS ParallelCluster ช่วยให้นักพัฒนา HPC สร้างและปรับขนาดแอปพลิเคชัน HPC แบบกระจายได้อย่างรวดเร็ว