Amazon EC2 P4d 인스턴스

클라우드의 기계 학습 훈련 및 HPC 애플리케이션을 위한 최고의 성능

Amazon EC2 P4d 인스턴스는 클라우드에서 기계 학습(ML) 훈련 및 고성능 컴퓨팅(HPC) 애플리케이션을 위한 최고의 성능을 제공합니다. P4d 인스턴스는 최신 NVIDIA A100 Tensor Core GPU로 구동되며, 업계 최고 수준의 높은 처리량과 짧은 대기 시간의 네트워킹을 제공합니다. 이 인스턴스는 클라우드 최초로 400Gbps의 인스턴스 네트워킹을 지원합니다. P4d 인스턴스를 사용하면 최대 60% 저렴한 비용으로 기계 학습 모델을 훈련할 수 있습니다. 예를 들어 딥 러닝 모델의 경우 이전 세대인 P3 및 P3dn 인스턴스에 비해 평균 성능이 2.5배 개선됩니다.

Amazon EC2 P4d 인스턴스는 클라우드에서 가장 높은 컴퓨팅, 네트워킹 및 스토리지 성능으로 구성되는 EC2 UltraCluster라는 하이퍼스케일 클러스터에 배포됩니다. 각 EC2 UltraCluster는 전 세계에서 가장 강력한 슈퍼컴퓨터 중 하나이며 가장 복잡한 다중 노드 기계 학습 훈련 및 분산 HPC 워크로드를 실행할 수 있습니다. EC2 UltraCluster에서는 기계 학습 또는 HPC 프로젝트 요구 사항에 따라 수천 개의 NVIDIA A100 GPU를 시작으로 손쉽게 확장할 수 있습니다.

연구원, 데이터 사이언티스트 및 개발자는 자연어 처리, 객체 탐지 및 분류와 추천 엔진 등의 사용 사례를 위한 기계 학습 모델 훈련에 P4d 인스턴스를 활용할 수 있습니다. 또한 신약 개발, 내진 해석 및 금융 모델링과 같은 HPC 애플리케이션을 실행할 수도 있습니다. 온프레미스 시스템과 달리 거의 무제한의 컴퓨팅 및 스토리지 용량에 액세스하고, 비즈니스 요구 사항에 따라 인프라 크기를 조정하며, 다중 노드 기계 학습 훈련 작업 또는 강결합 분산 HPC 애플리케이션을 설정 또는 유지 관리 비용을 들이지 않고 몇 분 안에 시작할 수 있습니다.

Announcing the New Amazon EC2 P4d Instances(2:00)

EC2 UltraCluster와 관련하여 질문이 있거나 도움이 필요하신가요?

지원 요청 »

EC2 P4d UltraCluster를 사용한 대규모 기계 학습 훈련 및 HPC

P4d 인스턴스로 구성된 EC2 UltraCluster는 고성능 컴퓨팅, 네트워킹 및 스토리지를 전 세계에서 가장 강력한 단일의 슈퍼컴퓨터로 결합합니다. P4d 인스턴스의 각 EC2 UltraCluster는 4,000개 이상의 최신 NVIDIA A100 GPU, 페타비트급 비차단 네트워킹 인프라 및 높은 처리량 및 짧은 대기 시간의 FSx for Lustre 스토리지로 구성됩니다. 모든 기계 학습 개발자, 연구원 또는 데이터 사이언티스트는 EC2 UltraCluster에서 종량제 사용 모델로 P4d 인스턴스를 구동하여 슈퍼컴퓨터급 성능에 액세스하고 가장 복잡한 다중 노드 기계 학습 훈련 및 HPC 워크로드를 실행할 수 있습니다.

EC2 UltraCluster와 관련하여 질문이 있거나 지원이 필요한 경우 지원을 요청하세요.

EC2_UltraClusters_HIW

일부 리전에서만 사용 가능합니다. EC2 UltraCluster의 지원 리전에 대한 정보 및 추가 정보는 AWS에 문의하세요.

이점

기계 학습 훈련 시간을 며칠에서 몇 분으로 단축

각 Amazon EC2 P4d 인스턴스는 최신 세대의 NVIDIA A100 Tensor Core GPU를 통해 이전 세대인 P3 인스턴스보다 평균 2.5배 향상된 딥 러닝 성능을 제공합니다. P4d 인스턴스의 EC2 UltraCluster에서 모든 개발자, 데이터 사이언티스트 및 연구원은 선결제 비용 또는 장기 약정 없이 슈퍼컴퓨팅급 성능에 액세스하여 가장 복잡한 기계 학습 및 HPC 워크로드를 실행할 수 있습니다. P4d 인스턴스는 훈련 시간을 단축하여 생산성을 극대화합니다. 개발자는 비즈니스 애플리케이션에 기계 학습 인텔리전스를 구축하는 핵심 미션에 집중할 수 있습니다.

가장 복잡한 다중 노드 기계 학습 훈련을 높은 효율성으로 실행

P4d 인스턴스의 EC2 UltraCluster를 사용하면 수천 개의 GPU 규모로 수월하게 확장할 수 있습니다. 400Gbps의 인스턴스 네트워킹, Elastic Fabric Adapter(EFA) 및 GPUDirect RDMA 기술에 대한 지원을 통해 높은 처리량과 짧은 대기 시간의 네트워킹을 제공하므로 스케일아웃/분산 기술을 사용하여 기계 학습 모델을 빠르게 훈련하는 데 도움이 됩니다. Elastic Fabric Adapter(EFA)는 NVIDIA Collective Communications Library(NCCL)를 사용하여 수천 개의 GPU로 확장되며 GPUDirect RDMA 기술을 통해 P4d 인스턴스의 GPU 간 통신의 대기 시간을 단축합니다.

기계 학습 훈련 및 HPC의 인프라 비용 절감

Amazon EC2 P4d 인스턴스를 사용하면 P3 인스턴스 대비 최대 60% 저렴한 비용으로 기계 학습 모델을 훈련할 수 있습니다. 또한 P4d 인스턴스를 스팟 인스턴스로 구매할 수도 있습니다. 스팟 인스턴스는 사용하지 않는 EC2 인스턴스 용량을 활용하여 Amazon EC2 비용을 온디맨드 요금 대비 최대 90%까지 낮출 수 있습니다. P4d 인스턴스로 기계 학습 훈련 비용을 낮추면 예산을 재할당하여 더 많은 기계 학습 인텔리전스를 비즈니스 애플리케이션에 구축할 수 있습니다.

AWS 서비스로 손쉽게 시작하고 확장

Deep Learning AMI와 Deep Learning Containers를 사용하면 P4d 딥 러닝 환경을 몇 분 안에 손쉽게 배포할 수 있습니다. 필요한 딥 러닝 프레임워크 라이브러리와 도구가 포함되어 있기 때문입니다. 자체 라이브러리와 도구를 이러한 이미지에 추가하기도 쉽습니다. P4d 인스턴스는 TensorFlow, PyTorch 및 MXNet과 같은 주요 기계 학습 프레임워크를 지원합니다. 또한 Amazon EC2 P4d 인스턴스는 Amazon SageMaker, Amazon Elastic Kubernetes Service(EKS), Amazon Elastic Container Service(ECS), AWS Batch 및 AWS ParallelCluster와 같은 기계 학습, 관리 및 오케스트레이션을 위한 주요 AWS 서비스에서 지원됩니다.

기능

NVIDIA A100 Tensor Core GPU 기반

NVIDIA A100 Tensor Core GPU는 기계 학습 및 고성능 컴퓨팅(HPC)을 대규모로 가속화합니다. 이 가속화는 전례 없는 수준입니다. NVIDIA A100의 3세대 Tensor Core는 모든 정밀도의 워크로드를 가속화하여 인사이트를 빠르게 확보하고 출시를 앞당길 수 있도록 합니다. 각 A100 GPU는 이전 세대인 V100 GPU 대비 2.5배 향상된 컴퓨팅 성능을 제공하며 40GB의 고성능 HBM2 GPU 메모리를 포함합니다. NVIDIA A100 GPU는 NVSwitch GPU 상호 연결 처리량을 활용합니다. 따라서 각 GPU는 동일한 인스턴스의 다른 모든 GPU와 동일한 600GB/s의 양방향 처리량과 단일 홉 대기 시간으로 통신할 수 있습니다.

고성능 네트워킹

P4d 인스턴스는 400Gbps의 네트워킹을 제공하므로 분산 워크로드를 확장하기가 더 쉽습니다. 예를 들어 P4d 인스턴스 간과 P4d 인스턴스와 스토리지 서비스(예: Amazon S3 및 FSx for Lustre) 간의 높은 네트워크 처리량을 통해 다중 노드 훈련을 보다 효율적으로 확장할 수 있습니다. Elastic Fabric Adapter(EFA)는 기계 학습 및 HPC 애플리케이션을 수천 개의 GPU로 손쉽게 확장할 수 있도록 하기 위해 AWS가 설계한 사용자 지정 네트워크 인터페이스입니다. 대기 시간을 추가로 줄이기 위해 EFA를 NVIDIA GPUDirect RDMA와 함께 사용하면 OS 바이패스를 통해 여러 서버의 GPU 간 통신 대기 시간을 낮출 수 있습니다.

처리량이 높고 대기 시간이 짧은 스토리지

FSx for Lustre를 사용하여 페타바이트급의 높은 처리량과 짧은 대기 시간의 스토리지를 제공하거나 Amazon S3를 사용하여 거의 무제한 스토리지를 400Gbps 속도로 비용 효율적으로 제공할 수 있습니다. 대규모 데이터 집합에 빠르게 액세스해야 하는 워크로드를 위해 각 P4d 인스턴스에는 초당 16기가바이트의 읽기 처리량을 제공하는 8TB의 NVMe 기반 SSD 스토리지도 포함됩니다.

AWS Nitro System 기반

P4d 인스턴스는 기존의 여러 가상화 기능을 전용 하드웨어 및 소프트웨어로 오프로드하여 고성능, 고가용성 및 뛰어난 보안을 제공하면서 가상화 오버헤드를 줄이는 구성 요소의 풍부한 모음인 AWS Nitro System을 기반으로 구축됩니다.

고객 사례

mli_600x400_TRI

2015년에 설립된 Toyota Research Institute(TRI)는 Toyota의 자동 주행, 로보틱스 및 기타 인간 증폭 기술을 개발합니다.

TRI의 인프라 엔지니어링 기술 팀장인 Mike Garrison은 “TRI는 모든 사람이 자유롭게 이동할 수 있는 미래를 만들고 있다”면서 "이전 세대인 P3 인스턴스는 기계 학습 모델 훈련 시간을 며칠에서 몇 시간으로 줄이는 데 도움이 되었다. 향후에는 P4d 인스턴스를 활용할 계획인데 GPU 메모리가 추가되고 float 형식의 효율성이 개선되면 기계 학습 팀에서 더 복잡한 모델을 훨씬 더 빠른 속도로 훈련할 수 있기 때문”이라고 말했습니다.

TRI-AD_logo_1200 200415_1

TRI-AD의 자동 주행(인식) 부문 Junya Inada 이사는 "TRI-AD는 적응형 주행 및 스마티 시티를 사용하여 차량 사고 및 사망자 수를 줄이는 데 중점을 두고, 모든 사람이 자유롭게 이동하고 탐색할 수 있는 미래를 만들고 있다. Amazon EC2 P4d 인스턴스를 사용한 후로 기존 코드의 수정 없이 이전 세대 GPU 인스턴스를 사용할 때보다 객체 인식을 위한 훈련 시간이 40% 단축되었다”고 말했습니다.

TRI-AD의 인프라 엔지니어링 부문 Jack Yan 전무 이사는 "Amazon EC2 P4d 인스턴스를 사용한 후로 이전 세대 GPU 인스턴스를 사용할 때보다 훈련 비용이 즉각적으로 절감되었고 그 덕에 모델 훈련에 투입되는 팀의 수를 늘릴 수 있었다. P4d의 개선된 네트워킹을 통해 수십 개 인스턴스를 효율적으로 확장할 수 있었으며 테스트 차량 또는 향후 테스트를 위한 시뮬레이션 환경에서 모델을 더 빠르게 최적화하고 재훈련하고 배포할 수 있었다"고 말했습니다.

ge_healthcare

GE Healthcare는 선도적인 글로벌 의료 기술 및 디지털 솔루션을 제공하는 혁신 기업입니다. GE Healthcare는 Edison 인텔리전스 플랫폼이 지원하는 지능형 디바이스, 데이터 분석, 애플리케이션 및 서비스를 통해 더 빠르고 더 많은 정보에 입각한 임상 의사 결정을 지원합니다.

인공 지능 부문 VP 겸 GM인 Karley Yoder는 “GE Healthcare는 임상에서 데이터를 수집하고, AI 및 분석을 이 데이터에 적용하여 환자 결과를 개선하는 인사이트를 얻으며, 효율성을 개선하고 오류를 없애는 데 도움이 되는 도구를 제공한다”면서 “당사의 의료 영상 디바이스는 데이터 사이언티스트가 처리해야 하는 방대한 양의 데이터를 생성한다. 이전 GPU 클러스터를 사용했다면 진행형 GAN과 같은 복잡한 AI 모델을 훈련하여 시뮬레이션하고 결과를 보기까지 며칠이 걸렸을 것이다. 새로운 P4d 인스턴스를 사용한 후로 처리 시간이 며칠에서 몇 시간으로 단축되었다. 다양한 이미지 크기를 사용한 모델 훈련의 속도가 2배에서 3배까지 개선되었을 뿐 아니라 배치 크기가 늘어나고 생산성이 개선된 덕에 더 높은 성능을 달성하는 동시에 모델 개발 주기를 가속화할 수 있었다”고 말했습니다.

0_banner

OmniSci는 가속 분석의 선구자입니다. OmniSci 플랫폼은 비즈니스 및 정부 기관에서 메인스트림 분석 도구의 한계를 넘어 데이터에서 인사이트를 찾는 데 사용됩니다.

Omnisci의 미국 공공 부문 Ray Falcione VP는 “Omnisci는 데이터 과학과 분석의 융합을 통해 데이터 사일로를 없애고 결합하는 미래를 만들고 있다. 당사의 고객은 시공간 데이터의 세분화된 시각화를 통해 현재의 상황은 물론 상황이 일어나는 시기와 장소를 보여주는 전체 그림을 그리는 데 필요한 위치와 시간이 포함될 수 있는 방대한 양의 데이터를 활용한다. 당사의 기술은 그 과정에서 숲과 나무를 모두 볼 수 있게 한다”고 말했습니다. “Amaon EC2 P4d 인스턴스를 사용한 후로 이전 세대 GPU 인스턴스에 비해 플랫폼 배포 비용이 대폭 줄었고 그 결과 방대한 양의 데이터 집합을 비용 효율적으로 확장할 수 있었다. A100의 개선된 네트워킹 덕에 수십억 개의 데이터 행을 효율적으로 확장하고 인사이트를 더 빠르게 얻을 수 있도록 고객을 지원할 수 있게 되었다.”

z-logo

Zenotech Ltd는 HPC 클라우드를 사용하여 온디맨드 라이선싱 모델을 제공하고 GPU를 활용하여 성능을 극한으로 끌어올림으로써 온라인 엔지니어링을 재정의하고 있습니다.

Zenotech의 Jamil Appa 이사는 “Zenotech는 더 효율적이고 친환경적인 제품을 설계할 수 있는 도구를 개발하는 데 전념한다. 당사의 도구는 여러 산업에서 사용되며 대규모 시뮬레이션을 통해 제품 성능에 대한 인사이트를 제공한다”고 말했습니다. “AWS P4d 인스턴스를 사용하면 이전 세대 GPU를 사용할 때보다 3.5배 더 빠르게 시뮬레이션을 실행할 수 있다. 이 속도는 해결 시간을 단축하여 이전보다 더 빠르게 설계를 출시하거나 충실도가 더 높은 시뮬레이션을 수행할 수 있게 한다.”

aon-200x100

Aon은 광범위한 위험, 은퇴 및 의료 솔루션을 제공하는 선도적인 글로벌 전문 서비스 회사입니다. Aon PathWise는 보험사 및 재보험사, 은행 및 연금 기금에서 헤지 전략 테스트, 규제 및 경제 예측과 예산 계획 같은 현재의 주요 당면 과제를 해결하는 데 사용할 수 있는, GPU 기반의 확장 가능한 HPC 위험 관리 솔루션입니다. 

PathWise Solutions Group의 Peter Phillips 사장 겸 CEO는 “PathWise Solutions Group LLC의 제품은 보험 회사, 재보험사 및 연금 기금에서 기계 학습, 헤지 전략 테스트, 규제 및 금융 보고, 비즈니스 계획 및 경제 예측과 신제품 개발 및 요금 책정과 같은 현재의 주요 보험 당면 과제를 빠르게 해결할 수 있는 차세대 기술에 대한 액세스를 제공한다”고 말했습니다. Phillips 사장은 "Amazon EC2 P4d 인스턴스를 사용한 후로 가장 까다로운 계산에서도 이전 세대 GPU 인스턴스를 사용할 때보다 1자리 및 2자리 정밀도 계산을 수행할 때 속도가 놀라울 정도로 빨라졌고 그 덕에 당사의 고객들은 처음으로 새로운 범위의 계산과 예측을 수행할 수 있게 되었다. 속도가 중요하다”면서 “AWS의 새로운 인스턴스 덕에 당사는 앞으로도 의미 있는 가치와 최신 기술을 고객에게 제공할 수 있을 것”이라고 말했습니다.

rad_ai

방사선 및 AI 전문가로 구성된 Rad AI는 방사선 전문의의 생산성을 극대화하여 궁극적으로 의료 접근성을 넓히고 환자 결과를 개선하는 제품을 구축합니다.

Rad AI의 공동 창립자인 Doktor Gurson은 “Rad AI의 미션은 고급 의료 서비스의 접근성을 모두에게로 확대하는 것이다. Rad AI는 의료 영상 워크플로에 중점을 두고 방사선 전문의의 업무 시간을 줄여주고, 과로를 방지하며, 정확도를 개선한다”고 말했습니다. “Rad AI는 AI를 사용하여 방사선 워크플로를 자동화하고 방사선 보고를 간소화한다. 새로운 Amazon EC2 P4d 인스턴스를 사용한 후로 이전 세대인 P3 인스턴스보다 추론 시간이 단축되었고 더 높은 정확성으로 2.4배 더 빠르게 모델을 훈련할 수 있게 되었다. 그 결과 진단의 속도와 정확성이 개선되었고 당사의 고객들이 제공하는 고급 방사선 서비스에 대한 접근성이 미국 전역으로 확대되었다.”

사례 연구를 읽고 자세히 알아보기 »

제품 세부 정보

인스턴스 크기 vCPU 인스턴스 메모리(GB) GPU – A100 네트워크 대역폭 GPUDirect RDMA GPU P2P 로컬 인스턴스 스토리지 EBS 대역폭 온디맨드 요금/시간 1년 예약 인스턴스 실질 시간당* 3년 예약 인스턴스 실질 시간당*
p4d.24xlarge 96 1152 8 400Gbps ENA 및 EFA 600GB/s NVSwitch 8 x 1TB NVMe SSD 19Gbps 32.77 USD 19.22 USD 11.57 USD
* - 위의 요금은 미국 동부(버지니아 북부) AWS 리전의 Linux/Unix에 적용되며, 가장 가까운 센트로 반올림됩니다. 전체 요금 내역은 Amazon EC2 요금 페이지를 참조하세요.

Amazon EC2 P4d 인스턴스는 미국 동부(버지니아 북부 및 오하이오), 미국 서부(오레곤), 유럽(아일랜드 및 프랑크푸르트), 아시아 태평양(도쿄 및 서울) 리전에서 사용할 수 있습니다. 고객은 온디맨드 인스턴스, 예약 인스턴스, 스팟 인스턴스, 전용 호스트 또는 Savings Plan의 일부로 P4d 인스턴스를 구입할 수 있습니다.

기계 학습을 위한 Amazon EC2 P4d 인스턴스 시작하기

Amazon SageMaker 사용

Amazon SageMaker는 기계 학습 모델의 구축, 훈련 및 배포를 위한 완전관리형 서비스입니다. Amazon EC2 P4d 인스턴스와 함께 사용하면 고객이 수십, 수백 또는 수천 개의 GPU로 손쉽게 확장할 수 있으므로 클러스터와 데이터 파이프라인 설정에 대한 걱정 없이 모든 규모에서 신속하게 모델을 훈련할 수 있습니다.

AWS Deep Learning AMI 또는 Deep Learning Containers 사용

AWS Deep Learning AMI(DLAMI)는 기계 학습 담당자 및 연구원에게 규모와 관계없이 클라우드에서 딥 러닝을 가속화할 수 있는 인프라 및 도구를 제공합니다. AWS Deep Learning Containers는 딥 러닝 프레임워크가 사전에 설치된 Docker 이미지로, 처음부터 환경을 구축하고 최적화하는 복잡한 프로세스를 건너뜀으로써 사용자 지정 기계 학습 환경을 신속하게 배포할 수 있도록 지원합니다.

Amazon Elastic Kubernetes Service(EKS) 또는 Elastic Container Service(ECS) 사용

컨테이너 오케스트레이션 서비스를 통해 자체 컨테이너식 워크로드를 관리하고자 하는 고객은 Amazon EKS 또는 ECS를 통해 Amazon EC2 P4d 인스턴스를 배포할 수 있습니다.

고성능 컴퓨팅을 위한 Amazon EC2 P4d 인스턴스 시작하기

Amazon EC2 P4d 인스턴스는 엔지니어링 시뮬레이션, 컴퓨팅 금융, 내진 해석, 분자 모델링, 유전체학, 렌더링 및 기타 GPU 기반 고성능 컴퓨팅(HPC) 워크로드를 실행하기에 적합한 플랫폼입니다. HPC 애플리케이션에는 뛰어난 네트워크 성능, 빠른 스토리지, 대용량 메모리, 뛰어난 컴퓨팅 성능 또는 위의 모든 성능이 필요할 때가 많습니다. P4d 인스턴스는 Elastic Fabric Adapter(EFA)를 지원하므로 메시지 전달 인터페이스(MPI)를 사용하여 수천 개의 GPU로 확장되는 HPC 애플리케이션을 지원할 수 있습니다. AWS Batch 및 AWS ParallelCluster를 사용하면 HPC 개발 작업에서 분산 HPC 애플리케이션을 빠르게 구축하고 확장할 수 있습니다.

자세히 알아보기 »

블로그 게시물 및 기사

 
작성자: Jeff Barr 
2020년 11월 2일
 
작성자: Amr Ragab 
2020년 11월 2일

추가 리소스

EC2 UltraClusters of P4d instances(1:59)
Amazon EC2 P4d vs P3: Natural Language Processing(0:34)
Amazon EC2 P4d vs P3: Speech to text(0:33)
Amazon EC2 P4d vs P3: Image Classification(0:37)

AWS 시작하기

AWS 계정 가입

AWS 계정 가입

AWS 프리 티어에 즉시 액세스할 수 있습니다.

간단한 자습서로 학습

10분 자습서로 알아보기

간단한 자습서를 통해 자세히 알아보십시오.

콘솔에서 EC2 구축 시작

콘솔에서 구축 시작

AWS 프로젝트를 시작하는 데 도움이 되는 단계별 안내서를 통해 구축을 시작하십시오.