- Amazon EC2›
- Bulut sunucusu türleri›
- P4 Bulut Sunucuları
Amazon EC2 P4 Bulut Sunucuları
Bulutta makine öğrenimi eğitimi ve HPC uygulamaları için yüksek performans
Neden Amazon EC2 P4 Bulut Sunucuları?
Amazon Elastic Compute Cloud (Amazon EC2) P4d bulut sunucuları, makine öğrenimi (ML) eğitimi ve yüksek performanslı bilgi işlem (HPC) uygulamaları için bulutta yüksek performans sunar. P4d bulut sunucuları, NVIDIA A100 Tensor Core GPU'lar tarafından desteklenir ve endüstri lideri yüksek aktarım hızı ve düşük gecikmeli ağ iletişimi sunar. Bu bulut sunucuları 400 Gb/sn bulut sunucusu ağını destekler. P4d bulut sunucuları, önceki nesil P3 ve P3dn bulut sunucularına kıyasla derin öğrenme modelleri için ortalama 2,5 kat daha iyi performans da dahil olmak üzere makine öğrenimi modellerini eğitmek için %60'a kadar daha düşük maliyet sağlar.
P4d bulut sunucuları, yüksek performanslı bilgi işlem, ağ oluşturma ve bulutta depolamayı içeren Amazon EC2 UltraClusters adlı kümelerde dağıtılır. Her EC2 UltraCluster, dünyanın en güçlü süper bilgisayarlarından biridir ve en karmaşık çok kodlu makine öğrenimi eğitiminizi ve dağıtılmış HPC iş yüklerinizi çalıştırmanızı sağlar. Makine öğrenimi veya HPC proje ihtiyaçlarınıza göre EC2 UltraClusters'ta birkaç ila binlerce NVIDIA A100 GPU'yu kolayca ölçeklendirebilirsiniz.
Araştırmacılar, veri bilimciler ve geliştiriciler; doğal dil işleme, nesne algılama, sınıflandırma ve öneri motorları gibi kullanım durumları için makine öğrenimi modellerini eğitmek için P4d bulut sunucularını kullanabilir. Ayrıca farmasötik keşif, sismik analiz ve finansal modelleme gibi HPC uygulamalarını çalıştırmak için de kullanabilirler. Şirket içi sistemlerin haricinde, neredeyse sınırsız bilgi işlem ve depolama kapasitesine erişebilir, altyapınızı işletme ihtiyaçlarına göre ölçeklendirebilir ve çok kodlu bir makine öğrenimi eğitimi işini veya sıkı bağlanmış bir HPC uygulamasını herhangi bir kurulum veya bakım maliyeti olmadan dakikalar içinde başlatabilirsiniz.
Karşınızda yeni Amazon EC2 P4d Bulut Sunucuları
Avantajlar
En yeni nesil NVIDIA A100 Tensor Core GPU'larla her bir P4d bulut sunucusu, önceki nesil P3 bulut sunucularına kıyasla ortalama 2,5 kat daha iyi derin öğrenme performansı sunar. P4d bulut sunucularının EC2 UltraClusters'ı, herhangi bir ön ödeme veya uzun vadeli taahhütler olmadan süper bilgi işlem sınıfı performansa erişim sağlayarak günlük geliştiricilerin, veri bilimcilerinin ve araştırmacıların en karmaşık makine öğrenimi ve HPC iş yüklerini çalıştırmalarını sağlar. P4d bulut sunucularıyla daha kısa eğitim süresi, üretkenliği artırır ve geliştiricilerin iş uygulamalarında makine öğrenimi zekası oluşturma temel misyonlarına odaklanmalarını sağlar.
Geliştiriciler, P4d bulut sunucularının EC2 UltraClusters ile binlerce GPU'ya kadar sorunsuz bir şekilde ölçeklendirebilir. 400 GB/sn bulut sunucusu ağı desteği, Esnek Yapı Bağdaştırıcısı (EFA) ve GPUDirect RDMA teknolojisiyle yüksek aktarım hızlı, düşük gecikme süreli ağ oluşturma, ölçeklenme/dağıtılmış teknikleri kullanarak makine öğrenimi modellerinin hızla eğitilmesini sağlar. EFA, binlerce GPU'ya ölçeklendirmek için NVIDIA Collective Communications Library'i (NCCL) kullanır ve GPUDirect RDMA teknolojisi, P4d bulut sunucuları arasında düşük gecikmeli GPU'dan GPU'ya iletişim sağlar.
P4d bulut sunucuları, makine öğrenimi modellerini eğitmek için P3 bulut sunucularına kıyasla %60'a kadar daha düşük maliyet sunar. Ayrıca, P4d bulut sunucuları Spot Bulut Sunucuları olarak satın alınabilir. Spot Bulut Sunucuları, kullanılmayan EC2 bulut sunucusu kapasitesinden yararlanır ve EC2 maliyetlerinizi, İstek Üzerine fiyatlarından %90'a varan oranda düşürür. P4d bulut sunucularıyla daha düşük makine öğrenimi eğitimi maliyeti sayesinde işletme uygulamalarına daha fazla makine öğrenimi zekası oluşturmak için bütçeler yeniden tahsis edilebilir.
AWS Derin Öğrenme AMI'leri (DLAMI'ler) ve Amazon Derin Öğrenme Container'ları, gerekli derin öğrenme çerçeve kitaplıklarını ve araçlarını içerdiğinden, P4d derin öğrenme ortamlarının dakikalar içinde dağıtılmasını kolaylaştırır. Ayrıca bu görüntülere kendi kitaplıklarınızı ve araçlarınızı daha kolay ekleyebilirsiniz. P4d bulut sunucuları TensorFlow, PyTorch ve MXNet gibi popüler makine öğrenimi çerçevelerini destekler. Ayrıca P4d bulut sunucuları; Amazon SageMaker, Amazon Esnek Kubernetes Hizmeti (Amazon EKS), Amazon Elastic Container Service (Amazon ECS), AWS Toplu İşlem ve AWS ParallelCluster gibi makine öğrenimi, yönetim ve düzenleme için başlıca AWS hizmetleri tarafından desteklenir.
Özellikler
NVIDIA A100 Tensor Core GPU'lar, makine öğrenimi ve HPC için eşi benzeri görülmemiş ölçekte hızlandırma sağlar. NVIDIA A100'ün üçüncü nesil Tensor Core'ları, her hassas iş yükünü hızlandırarak öngörü ve pazara sunma süresini hızlandırır. Her A100 GPU, önceki nesil V100 GPU'suna kıyasla 2,5 kat daha fazla işlem performansı sunar ve 40 GB HBM2 (P4d bulut sunucuları) veya 80 GB HBM2e (P4de bulut sunucuları) yüksek performanslı GPU belleğiyle birlikte gelir. Daha yüksek GPU belleği, yüksek çözünürlüklü verilerin büyük veri kümeleri üzerinde eğitim veren iş yüklerine özellikle fayda sağlar. NVIDIA A100 GPU'lar NVSwitch GPU ara bağlantı aktarım hızı kullanır, böylece her GPU aynı bulut sunucusundaki diğer tüm GPU'larla aynı 600 GB/sn çift yönlü aktarım hızı ve tek atlama gecikmesiyle iletişim kurabilir.
P4d bulut sunucuları, P4d bulut sunucuları arasında ve bir P4d bulut sunucusuyla Amazon Simple Storage Service (Amazon S3) ve Lustre İçin Amazon FSx gibi depolama hizmetleri arasında yüksek aktarım hızlı ağ iletişimi oluşturma sayesinde müşterilerin çok kodlu eğitim gibi dağıtılmış iş yüklerini daha verimli bir şekilde ölçeklendirmelerini sağlamak için 400 GB/sn ağ iletişimi sağlar. EFA, AWS tarafından makine öğrenimi ve HPC uygulamalarını binlerce GPU'ya ölçeklendirmeyi sağlamak için tasarlanmış özel bir ağ arabirimidir. Gecikmeyi daha da azaltmak için EFA, işletim sistemi atlama özellikli sunucular arasında düşük gecikmeli GPU'dan GPU'ya iletişimi sağlamak için NVIDIA GPUDirect RDMA ile birleştirilmiştir.
Lustre İçin Amazon FSx ile petabayt ölçekli yüksek aktarım hızlı, düşük gecikmeli depolamaya veya Amazon S3 ile 400 GB/sn hızlarda neredeyse sınırsız uygun maliyetli depolamaya erişin. Büyük veri kümelerine hızlı erişim gerektiren iş yükleri için her P4d bulut sunucusu, ayrıca 16 GB/sn okuma aktarım hızına sahip 8 TB NVMe temelli SSD depolama içerir.
P4d bulut sunucuları, sanallaştırma ek yükünü azaltırken aynı zamanda yüksek performans, yüksek erişilebilirlik ve yüksek güvenlik sağlamak için geleneksel sanallaştırma işlevlerinin çoğunu özel donanım ve yazılımlara aktaran zengin bir yapı taşları koleksiyonu olan AWS Nitro System üzerinde oluşturulmuştur.
Müşteri görüşleri
Müşterilerin ve çözüm ortaklarının, Amazon EC2 P4 bulut sunucularıyla işletme hedeflerine nasıl ulaştıklarına ilişkin bazı örnekleri aşağıda bulabilirsiniz.
Toyota Research Institute (TRI)
ÜÇLÜ REKLAM
ÜÇLÜ REKLAM
GE Healthcare
HEAVY.Aİ DOSYASI
Zenotech Ltd.
Aon
Tekne Yapay Zeka
Ürün ayrıntıları
|
Bulut Sunucusu Boyutu
|
vCPU sayısı
|
Bulut Sunucusu Belleği (GiB)
|
GPU - A100
|
GPU belleği
|
Ağ Bant Genişliği (Gbps)
|
GPUDirect RDMA
|
GPU Eşler Arası
|
Bulut Sunucusu Geçici Diski (GB)
|
EBS Bant Genişliği (Gb/sn.)
|
|---|---|---|---|---|---|---|---|---|---|
|
p4d.24xlarge
|
96
|
1152
|
8
|
320 GB
HBM2 |
400 ENA ve EFA
|
Evet
|
600 GB/s NVSwitch
|
8 x 1000 NVMe SSD
|
19
|
|
p4de.24xlarge
|
96
|
1152
|
8
|
640 GB
HBM2e |
400 ENA ve EFA
|
Evet
|
600 GB/s NVSwitch
|
8 x 1000 NVMe SSD
|
19
|
Makine öğrenimi için P4d bulut sunucularını kullanmaya başlama
Amazon SageMaker, ML modelleri oluşturmak, eğitmek ve dağıtmak için tam olarak yönetilen bir hizmettir. P4d bulut sunucularıyla birlikte kullanıldığında, müşteriler bir modeli ölçeğinden bağımsız olarak, kümeler ve veri işlem hatları ayarlama konusunda endişelenmeleri gerekmeksizin hızla eğitmek için ölçeği onlarca, yüzlerce veya binlerce GPU içerecek şekilde kolayca genişletebiliyor.
DLAMI, ML uygulayıcılarına ve araştırmacılarına bulutta DL'yi her ölçekte hızlandırmak için altyapı ve araçlar sağlar. Derin Öğrenme Kapsayıcıları, ortamlarınızı sıfırdan oluşturma ve optimize etme karmaşık sürecini atlamanıza izin vererek özel ML ortamlarını hızlı bir şekilde dağıtmayı kolaylaştırmak için DL çerçeveleriyle önceden yüklenmiş Docker görüntüleridir.
Kapsayıcı düzenleme hizmetleri aracılığıyla kendi konteynerli iş yüklerinizi yönetmeyi tercih ediyorsanız Amazon EKS veya Amazon ECS ile P4d bulut sunucularını dağıtabilirsiniz.
HPC için P4d bulut sunucularını kullanmaya başlama
P4d bulut sunucuları; mühendislik simülasyonları, hesaplamalı finans, sismik analiz, moleküler modelleme, genomik, görsel işleme ve diğer GPU temelli HPC iş yüklerini çalıştırmak için idealdir. HPC uygulamaları genellikle yüksek ağ performansı, hızlı depolama, büyük miktarda bellek, çok yüksek kapasiteli işlem özellikleri ya da bunların hepsini birden gerektirir. P4d bulut sunucuları, HPC uygulamalarının binlerce GPU'ya ölçeklendirmek için Message Passing Interface'i (MPI) kullanmasını sağlayan EFA'yı destekler. AWS Batch ve AWS ParallelCluster, HPC geliştiricilerinin dağıtılmış HPC uygulamalarını hızla oluşturmasına ve ölçeklendirmesine yardımcı olur.