- Amazon EC2
- 인스턴스 유형
- P4 인스턴스
Amazon EC2 P4 인스턴스
클라우드의 기계 학습 훈련 및 HPC 애플리케이션을 위한 고성능
Amazon EC2 P4 인스턴스를 사용해야 하는 이유
Amazon Elastic Compute Cloud(Amazon EC2) P4d 인스턴스는 클라우드에서 기계 학습(ML) 훈련 및 고성능 컴퓨팅(HPC) 애플리케이션을 위한 고성능을 제공합니다. P4d 인스턴스는 NVIDIA A100 Tensor Core GPU로 구동되며, 업계 최고 수준의 높은 처리량과 짧은 지연 시간의 네트워킹을 제공합니다. 이 인스턴스는 400Gbps 인스턴스 네트워킹을 지원합니다. P4d 인스턴스를 사용하면 최대 60% 저렴한 비용으로 기계 학습 모델을 훈련할 수 있습니다. 예를 들어 딥 러닝 모델의 경우 이전 세대인 P3 및 P3dn 인스턴스에 비해 평균 성능이 2.5배 개선됩니다.
P4d 인스턴스는 클라우드의 고성능 컴퓨팅, 네트워킹 및 스토리지로 구성된 Amazon EC2 UltraCluster라는 클러스터에 배포됩니다. 각 EC2 UltraCluster는 전 세계에서 가장 강력한 슈퍼컴퓨터 중 하나이며 가장 복잡한 다중 노드 기계 학습 훈련 및 분산 HPC 워크로드를 실행하는 데 도움이 됩니다. EC2 UltraCluster에서는 기계 학습 또는 HPC 프로젝트 요구 사항에 따라 수천 개의 NVIDIA A100 GPU를 시작으로 손쉽게 확장할 수 있습니다.
연구원, 데이터 사이언티스트 및 개발자는 자연어 처리, 객체 탐지 및 분류와 추천 엔진 등의 사용 사례를 위한 기계 학습 모델 훈련에 P4d 인스턴스를 사용할 수 있습니다. 또한 신약 개발, 내진 해석 및 금융 모델링과 같은 HPC 애플리케이션을 실행할 수도 있습니다. 온프레미스 시스템과 달리 거의 무제한의 컴퓨팅 및 스토리지 용량에 액세스하고, 비즈니스 요구 사항에 따라 인프라 크기를 조정하며, 다중 노드 기계 학습 훈련 작업 또는 강결합 분산 HPC 애플리케이션을 설정 또는 유지 관리 비용을 들이지 않고 몇 분 안에 시작할 수 있습니다.
새로운 Amazon EC2 P4d 인스턴스 발표
장점
각 P4d 인스턴스는 최신 세대의 NVIDIA A100 Tensor Core GPU를 통해 이전 세대인 P3 인스턴스보다 평균 2.5배 향상된 DL 성능을 제공합니다. P4d 인스턴스의 EC2 UltraCluster는 모든 개발자, 데이터 사이언티스트 및 연구원이 선결제 비용 또는 장기 약정 없이 슈퍼컴퓨팅급 성능에 액세스하여 가장 복잡한 기계 학습 및 HPC 워크로드를 실행하는 데 도움이 됩니다. P4d 인스턴스는 훈련 시간을 단축하여 생산성을 극대화합니다. 개발자는 비즈니스 애플리케이션에 기계 학습 인텔리전스를 구축하는 핵심 미션에 집중할 수 있습니다.
P4d 인스턴스의 EC2 UltraCluster를 사용하면 수천 개의 GPU 규모로 수월하게 확장할 수 있습니다. 400Gbps의 인스턴스 네트워킹, Elastic Fabric Adapter(EFA) 및 GPUDirect RDMA 기술에 대한 지원을 통해 높은 처리량과 짧은 지연 시간의 네트워킹을 제공하므로 스케일아웃/분산 기술을 사용하여 기계 학습 모델을 빠르게 훈련하는 데 도움이 됩니다. EFA는 NVIDIA Collective Communications Library(NCCL)를 사용하여 수천 개의 GPU로 확장되며 GPUDirect RDMA 기술을 통해 P4d 인스턴스의 GPU 간 통신의 지연 시간을 단축합니다.
P4d 인스턴스를 사용하면 P3 인스턴스 대비 최대 60% 저렴한 비용으로 기계 학습 모델을 훈련할 수 있습니다. 또한 P4d 인스턴스를 스팟 인스턴스로 구매할 수도 있습니다. 스팟 인스턴스는 사용하지 않는 EC2 인스턴스 용량을 활용하여 EC2 비용을 온디맨드 요금 대비 최대 90%까지 낮출 수 있습니다. P4d 인스턴스로 기계 학습 훈련 비용을 낮추면 예산을 재할당하여 더 많은 기계 학습 인텔리전스를 비즈니스 애플리케이션에 구축할 수 있습니다.
AWS Deep Learning AMI(DLAMI)와 Amazon Deep Learning Containers를 사용하면 P4d DL 환경을 몇 분 안에 손쉽게 배포할 수 있습니다. 필요한 DL 프레임워크 라이브러리와 도구가 포함되어 있기 때문입니다. 자체 라이브러리와 도구를 이러한 이미지에 추가하기는 더 쉽습니다. P4d 인스턴스는 TensorFlow, PyTorch 및 MXNet과 같은 주요 기계 학습 프레임워크를 지원합니다. 또한 P4d 인스턴스는 Amazon SageMaker, Amazon Elastic Kubernetes Service(Amazon EKS), Amazon Elastic Container Service(Amazon ECS), AWS Batch 및 AWS ParallelCluster와 같은 기계 학습, 관리 및 오케스트레이션을 위한 주요 AWS 서비스에서 지원됩니다.
기능
NVIDIA A100 Tensor Core GPU는 기계 학습 및 HPC를 대규모로 가속화합니다. 이 가속화는 전례 없는 수준입니다. NVIDIA A100의 3세대 Tensor Core는 모든 정밀도의 워크로드를 가속화하여 인사이트를 빠르게 확보하고 출시를 앞당길 수 있도록 합니다. 각 A100 GPU는 이전 세대인 V100 GPU 대비 2.5배 향상된 컴퓨팅 성능을 제공하며 40GB HBM2(P4d 인스턴스) 또는 80GB HBM2e(P4de 인스턴스)의 고성능 GPU 메모리를 포함합니다. 더욱 뛰어난 성능의 GPU 메모리는 특히 고해상도 데이터의 대규모 데이터 세트에 대한 워크로드 훈련에 유용합니다. NVIDIA A100 GPU는 NVSwitch GPU 상호 연결 처리량을 사용합니다. 따라서 각 GPU는 동일한 인스턴스의 다른 모든 GPU와 동일한 600GB/s의 양방향 처리량과 단일 홉 지연 시간으로 통신할 수 있습니다.
P4d 인스턴스는 400Gbps의 네트워킹을 제공하므로 분산 워크로드를 확장하기가 더 쉽습니다. 예를 들어 P4d 인스턴스 간과 P4d 인스턴스와 스토리지 서비스(예: Amazon Simple Storage Service[S3] 및 FSx for Lustre) 간의 높은 네트워크 처리량을 통해 다중 노드 훈련을 보다 효율적으로 스케일 아웃할 수 있습니다. EFA는 기계 학습 및 HPC 애플리케이션을 수천 개의 GPU로 손쉽게 확장할 수 있도록 하기 위해 AWS가 설계한 사용자 지정 네트워크 인터페이스입니다. 지연 시간을 추가로 줄이기 위해 EFA를 NVIDIA GPUDirect RDMA와 함께 사용하면 OS 바이패스를 통해 여러 서버의 GPU 간 통신 지연 시간을 낮출 수 있습니다.
FSx for Lustre를 사용하여 페타바이트급의 높은 처리량과 짧은 지연 시간의 스토리지에 액세스하거나 Amazon S3를 사용하여 거의 무제한 스토리지를 400Gbps 속도로 비용 효율적으로 이용할 수 있습니다. 대규모 데이터 세트에 빠르게 액세스해야 하는 워크로드를 위해 각 P4d 인스턴스에는 초당 16GB의 읽기 처리량을 제공하는 8TB의 NVMe 기반 SSD 스토리지도 포함됩니다.
P4d 인스턴스는 기존의 여러 가상화 기능을 전용 하드웨어 및 소프트웨어로 오프로드하여 고성능, 고가용성 및 뛰어난 보안을 제공하면서 가상화 오버헤드를 줄이는 구성 요소의 풍부한 모음인 AWS Nitro System을 기반으로 구축됩니다.
고객 추천사
고객과 파트너가 Amazon EC2 P4 인스턴스를 사용하여 비즈니스 목표를 달성한 몇 가지 사례를 소개합니다.
Toyota Research Institute(TRI)
트라이애드
트라이애드
GE Healthcare
HEAVY.AI
제노텍 주식회사
Aon
Rad AI
제품 세부 정보
|
Instance Size
|
vCPUs
|
Instance Memory (GiB)
|
GPU – A100
|
GPU memory
|
Network Bandwidth (Gbps)
|
GPUDirect RDMA
|
GPU Peer to Peer
|
Instance Storage (GB)
|
EBS Bandwidth (Gbps)
|
|---|---|---|---|---|---|---|---|---|---|
|
p4d.24xlarge
|
96
|
1152
|
8
|
320GB
HBM2 |
400 ENA 및 EFA
|
예
|
600GB/s NVSwitch
|
8 x 1,000 NVMe SSD
|
19
|
|
p4de.24xlarge
|
96
|
1152
|
8
|
640GB
HBM2e |
400 ENA 및 EFA
|
예
|
600GB/s NVSwitch
|
8 x 1,000 NVMe SSD
|
19
|
ML용 P4d 인스턴스 시작하기
Amazon SageMaker는 ML 모델을 구축, 교육 및 배포하기 위한 완전 관리형 서비스입니다. P4d 인스턴스와 함께 사용하면 수십, 수백 또는 수천 개의 GPU로 손쉽게 확장하여 클러스터와 데이터 파이프라인 설정에 대한 걱정 없이 모든 규모에서 신속하게 모델을 훈련할 수 있습니다.
DLAMI는 ML 실무자와 연구자에게 모든 규모의 클라우드에서 DL을 가속화할 수 있는 인프라와 도구를 제공합니다. 딥 러닝 컨테이너는 DL 프레임워크와 함께 사전 설치된 Docker 이미지로, 환경을 처음부터 구축하고 최적화하는 복잡한 프로세스를 건너뛰고 사용자 지정 ML 환경을 빠르게 배포할 수 있습니다.
컨테이너 오케스트레이션 서비스를 통해 자체 컨테이너화된 워크로드를 관리하려는 경우 Amazon EKS 또는 Amazon ECS를 사용하여 P4d 인스턴스를 배포할 수 있습니다.
HPC용 P4d 인스턴스 시작하기
P4d 인스턴스는 엔지니어링 시뮬레이션, 컴퓨팅 금융, 내진 해석, 분자 모델링, 유전체학, 렌더링 및 기타 GPU 기반 HPC 워크로드를 실행하기에 적합합니다. HPC 애플리케이션에는 뛰어난 네트워크 성능, 빠른 스토리지, 대용량 메모리, 뛰어난 컴퓨팅 성능 또는 위의 모든 성능이 필요할 때가 많습니다. P4d 인스턴스는 EFA를 지원하므로 메시지 전달 인터페이스(MPI)를 사용하여 수천 개의 GPU로 확장되는 HPC 애플리케이션을 지원할 수 있습니다. AWS Batch 및 AWS ParallelCluster는 HPC 개발 작업에서 분산 HPC 애플리케이션을 빠르게 구축하고 확장하는 데 도움이 됩니다.