메인 콘텐츠로 건너뛰기

Amazon EC2

Amazon EC2 P6e UltraServers 및 P6 인스턴스

AI 훈련 및 추론을 위한 최고의 GPU 성능

왜 Amazon EC2 P6e UltraServers와 P6 인스턴스를 사용해야 할까요?

NVIDIA GB200 NVL72로 가속화된 Amazon Elastic Compute Cloud(Amazon EC2) P6e UltraServers는 Amazon EC2에서 최고의 GPU 성능을 제공합니다. P6e-GB200은 P5en 인스턴스에 비해 NVIDIA NVLinkTM 환경에서 20배 이상의 컴퓨팅과 11배 이상의 메모리를 제공합니다. 이러한 UltraServers는 수조 개의 파라미터 규모에서 최첨단 모델을 훈련하고 배포하는 등 컴퓨팅 및 메모리 사용량이 많은 AI 워크로드에 이상적입니다. NVIDIA GB300 NVL72로 가속화된 P6e-GB300 UltraServers는 P6e-GB200 인스턴스에 비해 GPU 메모리와 GPU TFLOPS(FP4, 희소성 제외)가 각각 1.5배 향상됩니다. UltraServer당 20TB에 가까운 GPU 메모리를 갖춘 P6e-GB300은 1조 파라미터 규모의 AI 모델 및 사용 사례에 적합합니다.

NVIDIA Blackwell 및 Blackwell Ultra GPU로 가속화된 Amazon EC2 P6 인스턴스는 중대형 규모의 훈련 및 추론 애플리케이션에 이상적인 옵션입니다. P6-B200 인스턴스는 AI 훈련 및 추론을 위한 P5en 인스턴스에 비해 최대 2배 높은 성능을 제공하는 반면, P6-B300 인스턴스는 대규모 AI 훈련 및 추론을 위한 고성능을 제공합니다. 이 인스턴스는 수조 개의 파라미터를 가진 전문가 혼합(MoE) 모델과 추론 모델과 같은 정교한 모델에 적합합니다.

P6e UltraServers 및 P6 인스턴스를 사용하면 차세대 AI 모델을 더 빠르게 훈련하고 프로덕션 환경에서 실시간 추론을 위한 성능을 개선할 수 있습니다. P6e UltraServers 및 P6 인스턴스를 사용하여 MoE 및 추론 모델과 같은 최첨단 파운데이션 모델(FM)을 훈련하고 콘텐츠 생성, 엔터프라이즈 코파일럿, 심층 연구 에이전트와 같은 생성형 및 에이전트 AI 애플리케이션에 배포할 수 있습니다.

장점

P6e UltraServers

P6e-GB300을 사용하면 고객은 P6e-GB200에 비해 1.5배 더 많은 GPU 메모리와 1.5배 더 높은 GPU TFLOPS(FP4, 희소성 제외)를 활용하여 가장 컴퓨팅 및 메모리 집약적인 AI 워크로드의 성능을 향상시킬 수 있습니다.

P6e-GB200 UltraServers를 사용하면 고객은 하나의 NVLink 도메인 내에서 최대 72개의 Blackwell GPU에 액세스할 수 있으며, 이를 통해 360 페타플롭의 FP8 컴퓨팅(희소성 제외)과 총 13.4TB의 고대역폭 메모리(HBM3e)를 활용할 수 있습니다 P6e-GB200 UltraServers는 GPU 간 저지연 NVLink 연결을 통해 초당 130TB의 속도와 AI 훈련 및 추론을 위한 총 28.8Tb/s의 Elastic Fabric Adapter(EFAv4) 네트워킹을 제공합니다. P6e-GB200의 이 UltraServer 아키텍처는 P5en에 비해 최대 20배 높은 GPU TFLOPS, 11배 더 많은 GPU 메모리, 15배 더 높은 총 GPU 메모리 대역폭을 NVLink에서 활용할 수 있도록 하여, 컴퓨팅 및 메모리 성능에서 획기적인 향상을 제공합니다

P6 인스턴스

P6 B300-8x 인스턴스는 2.1TB의 고대역폭 GPU 메모리, 6.4Tbps의 EFA 네트워킹, 300Gbps의 전용 ENA 처리량, 4TB의 시스템 메모리를 갖춘 8x NVIDIA Blackwell Ultra GPU를 제공합니다. P6-B300 인스턴스는 P6-B200 인스턴스에 비해 네트워킹 대역폭은 2배, GPU 메모리 크기는 1.5배, GPU TFLOPS(FP4, 희소성 제외)는 1.5배 향상됩니다. 이러한 개선 사항 덕분에 P6-B300 인스턴스는 대규모 ML 훈련 및 추론에 매우 적합합니다.

P6-B200 인스턴스는 1,440GB의 고대역폭 GPU 메모리, 5세대 인텔 제온 스케일러블 프로세서(에메랄드 래피즈), 2TiB의 시스템 메모리, 최대 14.4TBp/s의 총 양방향 NVLink 대역폭, 30TB의 로컬 NVMe 스토리지를 갖춘 8x NVIDIA Blackwell GPU를 제공합니다. 이 인스턴스는 P5en 인스턴스에 비해 최대 2.25배 높은 GPU TFLOPS, 1.27배 더 큰 GPU 메모리, 1.6배 더 높은 GPU 메모리 대역폭을 제공합니다.

 

P6e UltraServers와 P6 인스턴스는 AWS Nitro System으로 구동되며, 특수한 하드웨어와 펌웨어를 사용하여 제한을 적용합니다. 이를 통해 AWS의 누구도 귀하의 민감한 AI 워크로드와 데이터에 액세스할 수 없도록 보장합니다. 네트워킹, 스토리지 및 기타 I/O 기능을 처리하는 Nitro System은 운영 상태를 유지하면서 펌웨어 업데이트, 버그 수정 및 최적화를 배포할 수 있습니다. 이를 통해 안정성이 향상되고 가동 중지 시간이 줄어듭니다. 이는 훈련 일정을 맞추고 프로덕션 환경에서 AI 애플리케이션을 실행하는 데 매우 중요합니다.

효율적으로 훈련을 분산하기 위해 P6e UltraServer 및 P6 인스턴스는 4세대 Elastic Fabric Adapter 네트워킹(eFav4)을 사용합니다. EFAv4는 Scalable Reliable Datagram(SRD) 프로토콜을 사용하여 여러 네트워크 경로를 통해 트래픽을 지능적으로 라우팅하며, 혼잡이나 장애가 발생해도 원활한 운영을 유지할 수 있도록 합니다.

P6e UltraServers와 P6 인스턴스는 Amazon EC2 UltraClusters에 배포되어, 페타비트 규모의 비차단 네트워크 내에서 수만 개의 GPU까지 확장이 가능합니다.

기능

P6-B200 인스턴스에 탑재된 각 NVIDIA Blackwell GPU는 2세대 트랜스포머 엔진을 특징으로 하며, FP4와 같은 새로운 정밀도 형식을 지원합니다. 이 인스턴스는 GPU당 최대 1.8TBp/s의 대역폭을 제공하는 더 빠르고 광범위한 인터커넥트인 5세대 NVLink를 지원합니다.

P6e-GB200의 핵심 구성 요소인 Grace Blackwell Superchip은 NVIDIA NVLink-C2C 인터커넥트를 사용하여 두 개의 고성능 NVIDIA Blackwell GPU와 NVIDIA Grace CPU를 연결합니다. 각 슈퍼칩은 10페타플롭의 FP8 컴퓨팅(희소성 없음)과 최대 372GB의 HBM3e를 제공합니다. 슈퍼칩 아키텍처를 사용하여 2개의 GPU와 1개의 CPU가 하나의 컴퓨팅 모듈 내에 공동 배치되어, 현재 세대 P5en 인스턴스에 비해 GPU와 CPU 간 대역폭이 한 차원 더 향상됩니다.

PP6-B300 인스턴스를 구동하는 NVIDIA Blackwell Ultra GPU는 P6-B200 인스턴스에 비해 네트워크 대역폭이 2배, GPU 메모리가 1.5배, FP4 컴퓨팅 성능(TFLOPS)은 최대 1.5배 향상됩니다(희소성 제외).

P6e- GB300 UltraServers에 탑재된 Grace Blackwell Superchip은 두 개의 NVIDIA Blackwell Ultra GPU를 하나의 NVIDIA Grace CPU와 연결하여 1.5배 높은 GPU 메모리와 최대 1.5배 높은 FP4 컴퓨팅 성능(희소성 없음)을 제공합니다.

P6e UltraServers와 P6 인스턴스는 GPU당 400GBps의 EFAv4 네트워크 속도를 제공하며, P6e-GB200 UltraServer는 총 28.8Tbps, P6-B200 인스턴스는 3.2Tbps의 대역폭을 제공합니다.

P6-B300 인스턴스는 PCle Gen6 덕분에 P6-B200 인스턴스에 비해 2배 향상된 6.4Tbps의 네트워킹 대역폭을 제공하며 대규모 분산 딥 러닝 모델 훈련을 위해 설계되었습니다.

P6e UltraServer 및 P6 인스턴스는 Amazon FSx for Lustre 파일 시스템을 지원하여 대규모 AI 훈련 및 추론에 필요한 수백 GBp/s의 처리량과 수백만 IOPS의 속도로 데이터에 액세스할 수 있습니다. P6 인스턴스는 최대 30TB의 로컬 NVMe SSD 스토리지를 지원하는 반면 P6e UltraServers는 최대 405TB의 로컬 NVMe SSD 스토리지를 지원하여 대규모 데이터세트에 빠르게 액세스할 수 있습니다. 또한 Amazon Simple Storage Service(Amazon S3)를 통해 비용 효율적인 스토리지를 거의 무제한으로 사용할 수 있습니다.

제품 세부 정보

인스턴스 유형

Instance Size
Blackwell GPUs
GPU memory (GB)
vCPUs
System memory (GiB)
Instance storage (TB)
Network bandwidth (Gbps)
EBS bandwidth (Gbps)
Available in EC2 UltraServers
p6-b300.48xlarge

8 Ultra

2,144 HBM3e

192

4,096

8 x 3.84

6.4

100

아니요

p6-b200.48xlarge

8

1,432 HBM3e

192

2,048

8 x 3.84

3.2

100

아니요

p6e-gb200.36xlarge

4

740 HBM3e

144

960

3 x 7.5

3.2

60

예*

*P6e-GB200 인스턴스는 UltraServers에서만 사용할 수 있습니다.

UltraServer 유형

Instance Size
Blackwell GPUs
GPU memory (GB)
vCPUs
System memory (GiB)
UltraServer Storage (TB)
Aggregate EFA bandwidth (Gbps)
EBS bandwidth (Gbps)
Available in EC2 UltraServers
u-p6e-gb200x72

72

13,320

2,592

17,280

405

28,800

1,080

u-p6e-gb200x36

36

6,660

1,296

8,640

202.5

14,400

540

ML 사용 사례 시작하기

Amazon SageMaker AI는 기계 학습 모델의 구축, 훈련 및 배포를 위한 완전관리형 서비스입니다. Amazon SageMaker HyperPod와 함께 사용하면 수십, 수백 또는 수천 개의 GPU로 손쉽게 확장하여 설정과 훈련 클러스터 복원력 관리에 대한 걱정 없이 모든 규모에서 신속하게 모델을 훈련할 수 있습니다. (P6e-GB200 지원이 곧 제공될 예정입니다.)

AWS Deep Learning AMI(DLAMI)는 ML 실무자 및 연구원에게 규모와 관계없이 클라우드에서 DL을 가속할 수 있는 인프라 및 도구를 제공합니다. AWS Deep Learning Containers는 DL 프레임워크가 사전에 설치된 Docker 이미지로, 처음부터 환경을 구축하고 최적화하는 복잡한 프로세스를 건너뜀으로써 사용자 지정 ML 환경 배포를 간소화할 수 있도록 지원합니다.

컨테이너 오케스트레이션 서비스를 통해 자체 컨테이너화된 워크로드를 관리하려는 경우 Amazon Elastic Kubernetes Service(Amazon EKS) 또는 Amazon Elastic Container Service(Amazon ECS)를 사용하여 P6e-GB200 UltraServers 및 P6-B200 인스턴스를 배포할 수 있습니다.

P6e UltraServers는 NVIDIA의 전체 AI 소프트웨어 스택을 갖춘 완전 관리형 환경인 NVIDA DGX Cloud를 통해서도 사용할 수 있습니다. NVIDIA DGX Cloud를 사용하면 NVIDIA의 최신 최적화, 벤치마킹 레시피 및 기술 전문 지식을 얻을 수 있습니다.

자세히 알아보기

오늘 원하는 내용을 찾으셨나요?

페이지의 콘텐츠 품질을 개선할 수 있도록 피드백을 보내주십시오.