Lewati ke Konten Utama

Amazon EC2 UltraClusters

Jalankan aplikasi HPC dan ML dalam skala besar

Mengapa menggunakan Amazon EC2 UltraClusters?

Amazon Elastic Compute Cloud (Amazon EC2) UltraClusters dapat membantu Anda menskalakan hingga ribuan GPU atau chip AI ML yang dibuat khusus, seperti AWS Trainium, untuk mendapatkan akses sesuai permintaan ke superkomputer. Mesin ini mendemokratisasikan akses ke performa kelas superkomputasi untuk developer machine learning (ML), AI generatif, dan komputasi performa tinggi (HPC) melalui model penggunaan bayar sesuai penggunaan yang sederhana tanpa biaya pengaturan atau pemeliharaan. Instans Amazon EC2 yang di-deploy di UltraCluster EC2 mencakup instans P6e-GB200, P6-B200, P5en, P5e, P5, P4d, Trn2, dan Trn1.

EC2 UltraClusters terdiri dari ribuan instans EC2 terakselerasi yang ditempatkan bersama di Zona Ketersediaan AWS tertentu dan saling terhubung menggunakan jaringan Elastic Fabric Adapter (EFA) dalam jaringan nonblok berskala petabita. EC2 UltraClusters juga menyediakan akses ke Amazon FSx for Lustre, penyimpanan bersama yang dikelola sepenuhnya yang dibangun di atas sistem file paralel berkinerja tinggi paling populer untuk memproses kumpulan data besar dengan cepat sesuai permintaan dan dalam skala dengan latensi sub-milidetik. EC2 UltraClusters menyediakan kemampuan menskalakan keluar untuk pelatihan ML terdistribusi dan beban kerja HPC yang digabungkan secara erat.

Keuntungan

EC2 UltraClusters membantu Anda mengurangi waktu pelatihan dan waktu penyelesaian dari berminggu-minggu menjadi hanya beberapa hari. Hal ini membantu Anda melakukan iterasi dengan lebih cepat serta membuat aplikasi deep learning (DL), AI generatif, dan HPC Anda dapat dipasarkan dengan lebih cepat.
EC2 UltraClusters terdiri dari ribuan instans EC2 terakselerasi yang ditempatkan bersama di Zona Ketersediaan AWS tertentu dan saling terhubung menggunakan jaringan Elastic Fabric Adapter (EFA) dalam jaringan nonblokir skala petabita. Mereka memungkinkan Anda untuk mendapatkan akses sesuai permintaan ke beberapa exaflops komputasi terakselerasi. 
EC2 UltraClusters didukung pada daftar instans EC2 yang terus bertambah dan memberi Anda fleksibilitas untuk memilih opsi komputasi yang tepat guna memaksimalkan performa sekaligus menjaga biaya tetap terkendali untuk beban kerja Anda.

Fitur

Jaringan performa tinggi

Instans EC2 yang dilakukan deployment di EC2 UltraClusters saling berhubungan dengan jaringan EFA untuk meningkatkan performa beban kerja pelatihan terdistribusi dan beban kerja HPC yang digabungkan secara erat. P6e-GB200 UltraServer menyediakan hingga 28,8 terabit per detik total jaringan EFAv4. Instans P6-B200 memberikan jaringan EFAv4 hingga 3,2 terabita per detik. UltraServer Trn2 memiliki jaringan EFAv3 12,8 terabita per detik. Instans P5en, P5e, P5, dan Trn2 memberikan hingga 3.200 Gbps; instans Trn1 memberikan hingga 1.600 Gbps; dan instans P4d memberikan jaringan EFA hingga 400 Gbps. EFA juga digabungkan dengan NVIDIA GPUDirect Remote Direct Memory Access (RDMA) (P6-B200, P5en, P5e, P5, P4d) dan NeuronLink (Trn2, Trn1) untuk memungkinkan komunikasi akselerator ke akselerator latensi rendah antara server dengan pemintasan sistem operasi.

Penyimpanan performa tinggi

EC2 UltraClusters menggunakan FSx for Lustre, penyimpanan bersama terkelola penuh yang dibangun di atas sistem file paralel performa tinggi paling populer. Dengan FSx for Lustre, Anda dapat dengan cepat memproses set data besar sesuai permintaan dan dalam skala besar, serta memberikan latensi submilidetik. Karakteristik latensi rendah dan throughput tinggi FSx for Lustre dioptimalkan untuk DL, AI generatif, dan beban kerja HPC pada EC2 UltraClusters. FSx for Lustre menjaga GPU dan chip AI dalam EC2 UltraClusters terisi dengan data, sehingga mengakselerasi beban kerja yang paling banyak permintaan. Beban kerja ini termasuk pelatihan model bahasa besar (LLM), inferensi AI generatif, DL, genomika, dan pemodelan risiko keuangan. Anda juga dapat mengakses penyimpanan hemat biaya yang hampir tak terbatas dengan Amazon Simple Storage Service (Amazon S3).

Didukung oleh Instans dan UltraServer

P6e-GB200 UltraServer

Dipercepat oleh NVIDIA GB200 NVL72, instans P6e-GB200 dalam konfigurasi UltraServer menawarkan performa pelatihan dan inferensi AI berbasis GPU tertinggi di Amazon EC2.

Pelajari selengkapnya

Instans P6-B200

Instans Amazon EC2 P6-B200, yang diakselerasi oleh GPU NVIDIA Blackwell, menawarkan performa tinggi untuk pelatihan AI, inferensi, dan HPC.

Pelajari selengkapnya

Instans dan UltraServers Trn2

Didukung oleh chip AI AWS Trainium2, instans Trn2 menawarkan performa harga mencapai 30 hingga 40% lebih baik dibandingkan instans berbasis GPU yang setara.

Pelajari selengkapnya

Instans P5en, P5e, dan P5

Ditenagai oleh GPU NVIDIA H200 Tensor Core, instans P5en dan P5e menghadirkan performa tinggi di Amazon EC2 untuk pelatihan ML dan aplikasi HPC. Instans P5 ditenagai oleh GPU NVIDIA H100 Tensor Core.

Pelajari selengkapnya

Instans P4d

Ditenagai oleh GPU NVIDIA A100 Tensor Core, instans P4d memberikan performa tinggi untuk pelatihan ML dan aplikasi HPC.

Pelajari selengkapnya

Instans Trn1

Didukung oleh chip AI AWS Trainium, instans Trn1 dibuat khusus untuk pelatihan ML performa tinggi. Instans ini menawarkan penghematan biaya pelatihan hingga 50% dibandingkan instans EC2 yang setara.

Pelajari selengkapnya