- Amazon EC2›
- Tipe instans›
- Instans P5
Instans P5 Amazon EC2
Instans berbasis GPU beperforma tinggi untuk deep learning dan aplikasi HPC
Mengapa memilih Instans P5 Amazon EC2?
Instans P5 Amazon Elastic Compute Cloud (Amazon EC2), yang didukung oleh GPU NVIDIA H100 Tensor Core, serta instans P5e dan P5en yang didukung oleh GPU NVIDIA H200 Tensor Core memberikan performa tinggi di Amazon EC2 untuk aplikasi deep learning (DL) dan komputasi performa tinggi (HPC). Instans tersebut membantu Anda mempercepat waktu penyelesaian hingga 4x dibandingkan dengan instans EC2 berbasis GPU generasi sebelumnya, dan mengurangi biaya untuk melatih model ML hingga 40%. Instans ini membantu Anda mengulangi solusi Anda dengan laju yang lebih cepat dan memasuki pasar lebih cepat. Anda dapat menggunakan instans P5, P5e, dan P5en untuk melatih dan melakukan deployment model bahasa besar (LLM) kompleks dan model difusi yang mendukung aplikasi AI generatif. Aplikasi ini mencakup jawaban pertanyaan, pembuatan kode, pembuatan video dan gambar, serta pengenalan suara. Anda juga dapat menggunakan instans ini untuk melakukan deployment aplikasi HPC dalam skala besar untuk penemuan obat, analisis seismik, prakiraan cuaca, dan pemodelan keuangan.
Untuk memberikan peningkatan performa dan penghematan biaya ini, instans P5 dan P5e melengkapi GPU NVIDIA H100 dan H200 Tensor Core dengan performa CPU 2x lebih tinggi, memori sistem 2x lebih tinggi, dan penyimpanan lokal 4x lebih tinggi dibandingkan dengan instans berbasis GPU generasi sebelumnya. Instans P5en memasangkan GPU NVIDIA H200 Tensor Core dengan CPU Intel Sapphire Rapids beperforma tinggi, yang memungkinkan PCIe Gen5 antara CPU dan GPU. Instans P5en menyediakan bandwidth hingga 4x antara CPU dan GPU serta latensi jaringan yang lebih rendah dibandingkan dengan instans P5e dan P5 sehingga meningkatkan performa pelatihan terdistribusi. Dukungan instans P5 dan P5e menyediakan jaringan hingga 3.200 Gbps menggunakan Elastic Fabric Adapter (EFA) generasi kedua. P5en, dengan EFA generasi ketiga yang menggunakan Nitro v5, menunjukkan perbaikan latensi hingga 35% dibandingkan dengan P5 yang menggunakan EFA dan Nitro generasi sebelumnya. Hal ini membantu meningkatkan performa komunikasi kolektif untuk beban kerja pelatihan terdistribusi seperti deep learning, AI generatif, pemrosesan data waktu nyata, dan aplikasi komputasi performa tinggi (HPC). Untuk memberikan komputasi skala besar pada latensi rendah, instans ini di-deploy di Amazon EC2 UltraClusters yang memungkinkan penskalaan hingga 20.000 GPU H100 atau H200 yang saling terhubung dengan jaringan nonpemblokiran skala petabit. Instans P5, P5e, dan P5en di EC2 UltraClusters dapat memberikan kemampuan komputasi agregat hingga 20 exaflop—performa yang setara dengan superkomputer.
Instans P5 Amazon EC2
Manfaat
Instans P5, P5e, dan P5en dapat melatih model AI generatif besar dalam skala besar dan memberikan performa hingga 4x instans EC2 berbasis GPU generasi sebelumnya.
Instans P5, P5e, dan P5en mengurangi waktu pelatihan dan waktu penyelesaian dari hitungan minggu menjadi hanya beberapa hari. Instans ini membantu Anda mengulangi dengan laju yang lebih cepat dan memasuki pasar lebih cepat.
Instans P5, P5e, dan P5en memberikan penghematan hingga 40% pada pelatihan DL dan biaya infrastruktur HPC dibandingkan dengan instans EC2 berbasis GPU generasi sebelumnya.
Instans P5, P5e, dan P5en menyediakan jaringan EFA hingga 3.200 Gbps. Instans ini di-deploy di EC2 UltraClusters dan memberikan 20 exaflop kemampuan komputasi agregat.
Fitur
Instans P5 menyediakan hingga 8 GPU NVIDIA H100 dengan total memori GPU HBM3 hingga 640 GB per instans. Instans P5e dan P5en menyediakan hingga 8 GPU NVIDIA H200 dengan total memori GPU HBM3e hingga 1.128 GB per instans. Kedua instans mendukung interkoneksi GPU NVSwitch hingga 900 GB/s (total bandwidth bisectional 3,6 TB/s di setiap instans), jadi setiap GPU dapat berkomunikasi dengan setiap GPU lain dalam instans yang sama dengan latensi lompatan tunggal.
GPU NVIDIA H100 dan H200 memiliki mesin transformator yang mengelola secara cerdas dan memilih secara dinamis antara perhitungan FP8 dan 16-bit. Fitur ini membantu memberikan percepatan pelatihan DL yang lebih cepat pada LLM dibandingkan dengan GPU A100 generasi sebelumnya. Untuk beban kerja HPC, GPU NVIDIA H100 dan H200 memiliki instruksi DPX baru yang lebih mempercepat algoritma pemrograman dinamis dibandingkan dengan GPU A100.
Instans P5, P5e, dan P5en memberikan jaringan EFA hingga 3.200 Gbps. EFA juga dipadukan dengan NVIDIA GPUDirect RDMA untuk memungkinkan komunikasi GPU-ke-GPU latensi rendah antara server dengan pintas sistem operasi.
Instans P5, P5e, dan P5en mendukung sistem file Amazon FSx for Lustre agar Anda dapat mengakses data dengan throughput ratusan GB/s dan jutaan IOPS yang diperlukan untuk beban kerja DL dan HPC skala besar. Setiap instans juga mendukung penyimpanan SSD NVMe lokal hingga 30 TB untuk akses cepat ke set data besar. Anda juga dapat menggunakan penyimpanan hemat biaya yang hampir tidak terbatas dengan Amazon Simple Storage Service (Amazon S3).
Testimoni pelanggan
Berikut adalah beberapa contoh cara pelanggan dan partner dalam mencapai tujuan bisnis mereka dengan instans P4 Amazon EC2.
Anthropic
Di Anthropic, kami berupaya membangun sistem AI yang andal, dapat diinterpretasikan, dan dapat diarahkan. Meskipun sistem AI umum yang besar saat ini dapat memberikan manfaat yang signifikan, sistem tersebut juga tidak dapat diprediksi, tidak dapat diandalkan, dan tidak jelas. Tujuan kami adalah mencapai kemajuan dalam permasalahan ini dan melakukan deployment sistem yang bermanfaat bagi banyak orang. Organisasi kami adalah salah satu dari sedikit organisasi di dunia yang membangun model dasar dalam penelitian DL. Model-model ini sangat kompleks, dan untuk mengembangkan serta melatih model mutakhir ini, kami perlu mendistribusikannya secara efisien ke seluruh klaster GPU yang besar. Kami menggunakan instans P4 Amazon EC2 secara ekstensif saat ini, dan kami menyambut baik peluncuran instans P5. Kami berharap instans tersebut dapat memberikan keuntungan performa harga yang besar dibandingkan instans P4d, dan akan tersedia dalam skala besar yang diperlukan untuk membangun LLM generasi berikutnya serta produk terkait.
AON
Di AON, kami telah merevolusi cara perusahaan asuransi menangani tantangan komputasi yang kompleks. Proyeksi aktuaria memerlukan lebih banyak simulasi untuk memodelkan risiko dan jaminan keuangan yang kompleks tetapi sistem warisan yang terputus serta tugas manual yang rawan kesalahan membatasi analisis terperinci dan ketat. Instans P5 Amazon EC2 telah membawa perubahan besar bagi kami. Kami sekarang dapat menjalankan model machine learning dan prakiraan ekonomi yang dulunya memakan waktu beberapa hari, kini hanya dalam hitungan jam. Kemampuan untuk menggunakan satu instans GPU H100 (p5.4xlarge) berarti kami tidak hanya menghemat waktu tetapi juga mengoptimalkan sumber daya komputasi kami. Klien kami mendapatkan wawasan yang luar biasa tentang manajemen risiko dan harga produk, semua berkat teknologi terobosan ini.
Van Beach, Global Head of Life Solutions, AON
Cohere
Cohere memimpin langkah dalam membantu setiap korporasi memanfaatkan kemampuan AI bahasa untuk mengeksplorasi, menghasilkan, mencari, dan bertindak berdasarkan informasi secara alami serta intuitif dengan melakukan deployment di berbagai platform cloud dalam lingkungan data yang paling sesuai dengan setiap pelanggan. Instans P5 Amazon EC2 yang didukung NVIDIA H100 akan memberikan kemampuan bisnis untuk menciptakan, berkembang, dan melakukan penskalaan lebih cepat dengan kekuatan komputasinya yang dikombinasikan dengan kemampuan LLM dan AI generatif mutakhir dari Cohere.
Hugging Face
Sebagai komunitas sumber terbuka untuk ML dengan pertumbuhan tercepat, kami saat ini menyediakan lebih dari 150.000 model yang sudah dilatih sebelumnya dan 25.000 set data di platform kami untuk NLP, penglihatan komputer, biologi, pembelajaran penguatan, dan lainnya. Dengan kemajuan signifikan dalam LLM dan AI generatif, kami bekerja bersama AWS untuk membangun dan menyumbangkan model sumber terbuka masa depan. Kami tidak sabar untuk menggunakan instans P5 Amazon EC2 melalui Amazon SageMaker dalam skala besar di UltraClusters dengan EFA untuk mempercepat pengiriman model AI fondasi baru bagi semua orang.
Detail produk
|
Instance Size
|
vCPUs
|
Instance Memory
|
GPU
|
GPU memory
|
Network Bandwidth (Gbps)
|
GPUDirect RDMA
|
GPU Peer to Peer
|
Instance Storage (TB)
|
EBS Bandwidth (Gbps)
|
|---|---|---|---|---|---|---|---|---|---|
|
p5.4xlarge
|
16 |
256 GiB |
1 H100 |
80 GB HBM3 |
EFA 100 Gbps |
Tidak* |
N/A* |
SSD NVMe 3,84 |
10 |
|
p5.48xlarge
|
192
|
2 TiB |
8 H100
|
640 GB
HBM3 |
EFA 3.200 Gbps
|
Ya
|
900 GB/s NVSwitch
|
8 x 3.84 NVMe SSD
|
80
|
|
p5e.48xlarge
|
192
|
2 TiB |
8 H200
|
1.128 GB
HBM3e |
EFA 3.200 Gbps
|
Ya
|
900 GB/s NVSwitch
|
8 x 3.84 NVMe SSD
|
80
|
|
p5en.48xlarge
|
192
|
2 TiB |
8 H200
|
HBM3e 1128 GB
|
EFA 3.200 Gbps
|
Ya
|
900 GB/s NVSwitch
|
8 x 3.84 NVMe SSD
|
100
|
*GPUDirect RDMA tidak didukung di P5.4xlarge
Memulai kasus penggunaan ML
SageMaker adalah layanan terkelola penuh untuk membangun, melatih, dan melakukan deployment model ML. Dengan SageMaker HyperPod, Anda dapat dengan lebih mudah menskalakan hingga puluhan, ratusan, atau ribuan GPU untuk melatih model secara cepat dalam skala apa pun tanpa khawatir tentang pengaturan dan pengelolaan klaster pelatihan yang tangguh.
DLAMI menyediakan infrastruktur dan alat bagi praktisi serta peneliti ML untuk mempercepat DL di cloud, pada semua skala. Deep Learning Containers adalah gambar Docker yang sudah diinstal sebelumnya dengan kerangka kerja DL untuk menyederhanakan deployment lingkungan ML kustom dengan memungkinkan Anda melewati proses yang rumit dalam membangun dan mengoptimalkan lingkungan dari awal.
Jika Anda lebih memilih untuk mengelola beban kerja dalam kontainer Anda sendiri melalui layanan orkestrasi kontainer, Anda dapat melakukan deployment instans P5, P5e, dan P5en dengan Amazon EKS atau Amazon ECS.
Memulai kasus penggunaan HPC
Instans P5, P5e, dan P5en adalah platform yang ideal untuk menjalankan simulasi rekayasa, keuangan komputasional, analisis seismik, pemodelan molekul, genomika, rendering, dan beban kerja HPC berbasis GPU lainnya. Aplikasi HPC sering kali memerlukan performa jaringan yang tinggi, penyimpanan cepat, memori dalam jumlah besar, kemampuan komputasi tinggi, atau semua yang disebutkan di atas. Ketiga tipe instans mendukung EFA yang memungkinkan aplikasi HPC menggunakan Message Passing Interface (MPI) untuk menskalakan hingga ribuan GPU. AWS Batch dan AWS ParallelCluster memungkinkan developer HPC membangun dan menskalakan aplikasi HPC terdistribusi dengan cepat.