Amazon EC2

Amazon EC2 P4 인스턴스

클라우드의 기계 학습 훈련 및 HPC 애플리케이션을 위한 고성능

P4 인스턴스 시작하기

Amazon EC2 P4 인스턴스를 사용해야 하는 이유

Amazon Elastic Compute Cloud(Amazon EC2) P4d 인스턴스는 클라우드에서 기계 학습(ML) 훈련 및 고성능 컴퓨팅(HPC) 애플리케이션을 위한 고성능을 제공합니다. P4d 인스턴스는 NVIDIA A100 Tensor Core GPU로 구동되며, 업계 최고 수준의 높은 처리량과 짧은 지연 시간의 네트워킹을 제공합니다. 이 인스턴스는 400Gbps 인스턴스 네트워킹을 지원합니다. P4d 인스턴스를 사용하면 최대 60% 저렴한 비용으로 기계 학습 모델을 훈련할 수 있습니다. 예를 들어 딥 러닝 모델의 경우 이전 세대인 P3 및 P3dn 인스턴스에 비해 평균 성능이 2.5배 개선됩니다.

P4d 인스턴스는 클라우드의 고성능 컴퓨팅, 네트워킹 및 스토리지로 구성된 Amazon EC2 UltraCluster라는 클러스터에 배포됩니다. 각 EC2 UltraCluster는 전 세계에서 가장 강력한 슈퍼컴퓨터 중 하나이며 가장 복잡한 다중 노드 기계 학습 훈련 및 분산 HPC 워크로드를 실행하는 데 도움이 됩니다. EC2 UltraCluster에서는 기계 학습 또는 HPC 프로젝트 요구 사항에 따라 수천 개의 NVIDIA A100 GPU를 시작으로 손쉽게 확장할 수 있습니다.

연구원, 데이터 사이언티스트 및 개발자는 자연어 처리, 객체 탐지 및 분류와 추천 엔진 등의 사용 사례를 위한 기계 학습 모델 훈련에 P4d 인스턴스를 사용할 수 있습니다. 또한 신약 개발, 내진 해석 및 금융 모델링과 같은 HPC 애플리케이션을 실행할 수도 있습니다. 온프레미스 시스템과 달리 거의 무제한의 컴퓨팅 및 스토리지 용량에 액세스하고, 비즈니스 요구 사항에 따라 인프라 크기를 조정하며, 다중 노드 기계 학습 훈련 작업 또는 강결합 분산 HPC 애플리케이션을 설정 또는 유지 관리 비용을 들이지 않고 몇 분 안에 시작할 수 있습니다.

새로운 Amazon EC2 P4d 인스턴스 발표

장점

각 P4d 인스턴스는 최신 세대의 NVIDIA A100 Tensor Core GPU를 통해 이전 세대인 P3 인스턴스보다 평균 2.5배 향상된 DL 성능을 제공합니다. P4d 인스턴스의 EC2 UltraCluster는 모든 개발자, 데이터 사이언티스트 및 연구원이 선결제 비용 또는 장기 약정 없이 슈퍼컴퓨팅급 성능에 액세스하여 가장 복잡한 기계 학습 및 HPC 워크로드를 실행하는 데 도움이 됩니다. P4d 인스턴스는 훈련 시간을 단축하여 생산성을 극대화합니다. 개발자는 비즈니스 애플리케이션에 기계 학습 인텔리전스를 구축하는 핵심 미션에 집중할 수 있습니다.

P4d 인스턴스의 EC2 UltraCluster를 사용하면 수천 개의 GPU 규모로 수월하게 확장할 수 있습니다. 400Gbps의 인스턴스 네트워킹, Elastic Fabric Adapter(EFA) 및 GPUDirect RDMA 기술에 대한 지원을 통해 높은 처리량과 짧은 지연 시간의 네트워킹을 제공하므로 스케일아웃/분산 기술을 사용하여 기계 학습 모델을 빠르게 훈련하는 데 도움이 됩니다. EFA는 NVIDIA Collective Communications Library(NCCL)를 사용하여 수천 개의 GPU로 확장되며 GPUDirect RDMA 기술을 통해 P4d 인스턴스의 GPU 간 통신의 지연 시간을 단축합니다.

P4d 인스턴스를 사용하면 P3 인스턴스 대비 최대 60% 저렴한 비용으로 기계 학습 모델을 훈련할 수 있습니다. 또한 P4d 인스턴스를 스팟 인스턴스로 구매할 수도 있습니다. 스팟 인스턴스는 사용하지 않는 EC2 인스턴스 용량을 활용하여 EC2 비용을 온디맨드 요금 대비 최대 90%까지 낮출 수 있습니다. P4d 인스턴스로 기계 학습 훈련 비용을 낮추면 예산을 재할당하여 더 많은 기계 학습 인텔리전스를 비즈니스 애플리케이션에 구축할 수 있습니다.

AWS Deep Learning AMI(DLAMI)와 Amazon Deep Learning Containers를 사용하면 P4d DL 환경을 몇 분 안에 손쉽게 배포할 수 있습니다. 필요한 DL 프레임워크 라이브러리와 도구가 포함되어 있기 때문입니다. 자체 라이브러리와 도구를 이러한 이미지에 추가하기는 더 쉽습니다. P4d 인스턴스는 TensorFlow, PyTorch 및 MXNet과 같은 주요 기계 학습 프레임워크를 지원합니다. 또한 P4d 인스턴스는 Amazon SageMaker, Amazon Elastic Kubernetes Service(Amazon EKS), Amazon Elastic Container Service(Amazon ECS), AWS Batch 및 AWS ParallelCluster와 같은 기계 학습, 관리 및 오케스트레이션을 위한 주요 AWS 서비스에서 지원됩니다.

기능

NVIDIA A100 Tensor Core GPU는 기계 학습 및 HPC를 대규모로 가속화합니다. 이 가속화는 전례 없는 수준입니다. NVIDIA A100의 3세대 Tensor Core는 모든 정밀도의 워크로드를 가속화하여 인사이트를 빠르게 확보하고 출시를 앞당길 수 있도록 합니다. 각 A100 GPU는 이전 세대인 V100 GPU 대비 2.5배 향상된 컴퓨팅 성능을 제공하며 40GB HBM2(P4d 인스턴스) 또는 80GB HBM2e(P4de 인스턴스)의 고성능 GPU 메모리를 포함합니다. 더욱 뛰어난 성능의 GPU 메모리는 특히 고해상도 데이터의 대규모 데이터 세트에 대한 워크로드 훈련에 유용합니다. NVIDIA A100 GPU는 NVSwitch GPU 상호 연결 처리량을 사용합니다. 따라서 각 GPU는 동일한 인스턴스의 다른 모든 GPU와 동일한 600GB/s의 양방향 처리량과 단일 홉 지연 시간으로 통신할 수 있습니다.

P4d 인스턴스는 400Gbps의 네트워킹을 제공하므로 분산 워크로드를 확장하기가 더 쉽습니다. 예를 들어 P4d 인스턴스 간과 P4d 인스턴스와 스토리지 서비스(예: Amazon Simple Storage Service[S3] 및 FSx for Lustre) 간의 높은 네트워크 처리량을 통해 다중 노드 훈련을 보다 효율적으로 스케일 아웃할 수 있습니다. EFA는 기계 학습 및 HPC 애플리케이션을 수천 개의 GPU로 손쉽게 확장할 수 있도록 하기 위해 AWS가 설계한 사용자 지정 네트워크 인터페이스입니다. 지연 시간을 추가로 줄이기 위해 EFA를 NVIDIA GPUDirect RDMA와 함께 사용하면 OS 바이패스를 통해 여러 서버의 GPU 간 통신 지연 시간을 낮출 수 있습니다.

FSx for Lustre를 사용하여 페타바이트급의 높은 처리량과 짧은 지연 시간의 스토리지에 액세스하거나 Amazon S3를 사용하여 거의 무제한 스토리지를 400Gbps 속도로 비용 효율적으로 이용할 수 있습니다. 대규모 데이터 세트에 빠르게 액세스해야 하는 워크로드를 위해 각 P4d 인스턴스에는 초당 16GB의 읽기 처리량을 제공하는 8TB의 NVMe 기반 SSD 스토리지도 포함됩니다.

P4d 인스턴스는 기존의 여러 가상화 기능을 전용 하드웨어 및 소프트웨어로 오프로드하여 고성능, 고가용성 및 뛰어난 보안을 제공하면서 가상화 오버헤드를 줄이는 구성 요소의 풍부한 모음인 AWS Nitro System을 기반으로 구축됩니다.

고객 추천사

고객과 파트너가 Amazon EC2 P4 인스턴스를 사용하여 비즈니스 목표를 달성한 몇 가지 사례를 소개합니다.

Toyota Research Institute(TRI)

2015년에 설립된 Toyota Research Institute(TRI)는 Toyota의 자동 주행, 로보틱스 및 기타 인간 증폭 기술을 개발합니다.

“TRI에서는 모든 사람이 자유롭게 이동할 수 있는 미래를 만들기 위해 노력하고 있습니다. 이전 세대 P3 인스턴스를 사용하면 ML 모델을 학습하는 데 걸리는 시간을 며칠에서 몇 시간으로 단축할 수 있었으며, 추가 GPU 메모리와 더 효율적인 플로트 형식을 통해 머신 러닝 팀이 더 복잡한 모델을 더 빠른 속도로 학습할 수 있기 때문에 P4d 인스턴스를 활용할 수 있을 것으로 기대하고 있습니다.“

Mike Garrison, TRI Technical Lead, Infrastructure Engineering

트라이애드

“TRI-AD에서는 적응형 주행과 스마트 시티를 사용하여 차량 부상과 사망자를 줄이는 데 중점을 두고 모든 사람이 자유롭게 이동하고 탐험할 수 있는 미래를 만들기 위해 노력하고 있습니다. Amazon EC2 P4d 인스턴스를 사용하여 기존 코드를 수정하지 않고도 객체 인식에 필요한 학습 시간을 이전 세대 GPU 인스턴스에 비해 40% 단축할 수 있었습니다.“

Junya Inada, TRI-AD Director of Automated Driving(Recognition)

트라이애드

“Amazon EC2 P4d 인스턴스를 사용하여 이전 세대 GPU 인스턴스에 비해 교육 비용을 즉시 절감할 수 있었고 모델 교육을 담당하는 팀의 수를 늘릴 수 있었습니다. P4d의 네트워킹 개선 덕분에 수십 개의 인스턴스로 효율적으로 확장할 수 있었고, 이를 통해 추가 테스트를 위해 테스트 차량 또는 시뮬레이션 환경에서 모델을 신속하게 최적화, 재교육 및 배포할 수 있는 상당한 민첩성을 확보할 수 있었습니다.“

Jack Yan, Senior TRI-AD Senior Director of Infrastructure Engineering

GE Healthcare

GE Healthcare는 선도적인 글로벌 의료 기술 및 디지털 솔루션을 제공하는 혁신 기업입니다. GE Healthcare는 Edison 인텔리전스 플랫폼이 지원하는 지능형 디바이스, 데이터 분석, 애플리케이션 및 서비스를 통해 더 빠르고 더 많은 정보에 입각한 임상 의사 결정을 지원합니다.

“GE Healthcare에서는 임상의에게 데이터를 집계하고, 해당 데이터에 AI 및 분석을 적용하고, 환자 결과를 개선하고, 효율성을 높이고, 오류를 제거하는 통찰력을 발견하는 데 도움이 되는 도구를 제공합니다. 당사의 의료 영상 디바이스는 데이터 사이언티스트가 처리해야 하는 방대한 양의 데이터를 생성합니다. 이전 GPU 클러스터를 사용했다면 진행형 GAN과 같은 복잡한 AI 모델을 훈련하여 시뮬레이션하고 결과를 보기까지 며칠이 걸렸을 것입니다. 새로운 P4d 인스턴스를 사용한 후로 처리 시간이 며칠에서 몇 시간으로 단축되었습니다. 다양한 이미지 크기의 모델을 학습하는 속도가 2~3배 빨라졌으며 배치 크기가 증가하여 성능이 향상되고 모델 개발 주기가 단축되어 생산성이 향상되었습니다.“”

Karley Yoder, GM Healthcare Artificial Intelligence VP&GM

HEAVY.AI

HEAVY.AI는 가속 분석의 선구자입니다. HEAVY.AI 플랫폼은 기업과 정부 기관에서 일반 분석 도구의 한계를 넘어서는 데이터에서 통찰력을 찾는 데 사용됩니다.

“HEAVY.AI 에서는 데이터 과학과 분석이 융합되어 데이터 사일로를 허물고 융합하는 미래를 구축하기 위해 노력하고 있습니다. 당사의 고객은 시공간 데이터의 세분화된 시각화를 통해 현재의 상황은 물론 상황이 일어나는 시기와 장소를 보여주는 전체 그림을 그리는 데 필요한 위치와 시간이 포함될 수 있는 방대한 양의 데이터를 활용합니다. 우리의 기술은 숲과 나무를 모두 볼 수 있게 해줍니다. Amazon EC2 P4d 인스턴스를 사용한 후로 이전 세대 GPU 인스턴스에 비해 플랫폼 배포 비용이 대폭 줄었고 그 결과 방대한 양의 데이터 세트를 비용 효율적으로 확장할 수 있었습니다. A100의 네트워킹 개선으로 수십억 행의 데이터로 확장하는 방식의 효율성이 향상되었고 고객이 훨씬 더 빠르게 통찰력을 얻을 수 있게 되었습니다.“

Ray Falcione, HEAVY.AI VP of US Public Sector

제노텍 주식회사

Zenotech Ltd는 HPC 클라우드를 사용하여 온디맨드 라이선싱 모델을 제공하고 GPU를 활용하여 성능을 극한으로 끌어올림으로써 온라인 엔지니어링을 재정의하고 있습니다.

“Zenotech에서는 디자이너가 보다 효율적이고 환경 친화적인 제품을 만들 수 있는 도구를 개발하고 있습니다. 당사의 도구는 여러 산업에서 사용되며 대규모 시뮬레이션을 통해 제품 성능에 대한 인사이트를 제공합니다. AWS P4d 인스턴스를 사용하면 이전 세대 GPU를 사용할 때보다 3.5배 더 빠르게 시뮬레이션을 실행할 수 있습니다. 이러한 속도 향상으로 문제 해결 시간이 크게 단축되어 고객은 이전보다 더 빠르게 설계를 출시하거나 더 높은 충실도의 시뮬레이션을 수행할 수 있습니다.“”

Jamil Appa, Zenotech Director & Cofounder

Aon

Aon은 광범위한 위험, 은퇴 및 의료 솔루션을 제공하는 선도적인 글로벌 전문 서비스 회사입니다. Aon PathWise는 보험사 및 재보험사, 은행 및 연금 기금에서 헤지 전략 테스트, 규제 및 경제 예측과 예산 계획 같은 현재의 주요 당면 과제를 해결하는 데 사용할 수 있는, GPU 기반의 확장 가능한 HPC 위험 관리 솔루션입니다.

“PathWise Solutions Group LLC에서는 보험 회사, 재보험사 및 연금 기금이 차세대 기술에 액세스하여 기계 학습, 헤지 전략 테스트, 규제 및 재무 보고, 비즈니스 계획 및 경제 예측, 신제품 개발 및 가격 책정과 같은 오늘날의 주요 보험 문제를 신속하게 해결할 수 있도록 합니다. Amazon EC2 P4d 인스턴스를 사용한 후로 가장 까다로운 계산에서도 이전 세대 GPU 인스턴스를 사용할 때보다 1자리 및 2자리 정밀도 계산을 수행할 때 속도가 놀라울 정도로 빨라졌고 그 덕에 당사의 고객들은 처음으로 새로운 범위의 계산과 예측을 수행할 수 있게 되었습니다. 속도는 매우 중요하며, AWS의 새로운 인스턴스 덕분에 고객에게 의미 있는 가치와 최신 기술을 지속적으로 제공하고 있습니다."

Van Beach, Aon Pathwise Strategy and Technology Group Life Solutions Global Head

Rad AI

방사선학 및 AI 전문가로 구성된 Rad AI는 방사선 전문의의 생산성을 극대화하여 궁극적으로 의료 서비스를 보다 광범위하게 이용할 수 있게 하고 환자의 치료 결과를 개선하는 제품을 개발합니다. 자세히 알아보려면 사례 연구를 읽어보세요.

“Rad AI의 사명은 모든 사람이 의료 서비스에 대한 접근성과 품질을 높이는 것입니다. Rad AI는 의료 영상 워크플로에 중점을 두고 방사선 전문의의 업무 시간을 줄여주고, 과로를 방지하며, 정확도를 개선합니다. Rad AI는 AI를 사용하여 방사선 워크플로를 자동화하고 방사선 보고를 간소화합니다. 새로운 Amazon EC2 P4d 인스턴스를 사용한 후로 이전 세대인 P3 인스턴스보다 추론 시간이 단축되었고 더 높은 정확성으로 2.4배 더 빠르게 모델을 훈련할 수 있게 되었습니다. 이를 통해 더 빠르고 정확한 진단이 가능하고 미국 전역의 고객이 제공하는 고품질 방사선학 서비스를 더 많이 이용할 수 있습니다.“

Doktor Gurson, Rad AI Cofounder

제품 세부 정보

Instance Size	vCPUs	Instance Memory (GiB)	GPU – A100	GPU memory	Network Bandwidth (Gbps)	GPUDirect RDMA	GPU Peer to Peer	Instance Storage (GB)	EBS Bandwidth (Gbps)
p4d.24xlarge	96	1152	8	320GB HBM2	400 ENA 및 EFA	예	600GB/s NVSwitch	8 x 1,000 NVMe SSD	19
p4de.24xlarge	96	1152	8	640GB HBM2e	400 ENA 및 EFA	예	600GB/s NVSwitch	8 x 1,000 NVMe SSD	19

ML용 P4d 인스턴스 시작하기

Amazon SageMaker는 ML 모델을 구축, 교육 및 배포하기 위한 완전 관리형 서비스입니다. P4d 인스턴스와 함께 사용하면 수십, 수백 또는 수천 개의 GPU로 손쉽게 확장하여 클러스터와 데이터 파이프라인 설정에 대한 걱정 없이 모든 규모에서 신속하게 모델을 훈련할 수 있습니다.

DLAMI는 ML 실무자와 연구자에게 모든 규모의 클라우드에서 DL을 가속화할 수 있는 인프라와 도구를 제공합니다. 딥 러닝 컨테이너는 DL 프레임워크와 함께 사전 설치된 Docker 이미지로, 환경을 처음부터 구축하고 최적화하는 복잡한 프로세스를 건너뛰고 사용자 지정 ML 환경을 빠르게 배포할 수 있습니다.

컨테이너 오케스트레이션 서비스를 통해 자체 컨테이너화된 워크로드를 관리하려는 경우 Amazon EKS 또는 Amazon ECS를 사용하여 P4d 인스턴스를 배포할 수 있습니다.

HPC용 P4d 인스턴스 시작하기

P4d 인스턴스는 엔지니어링 시뮬레이션, 컴퓨팅 금융, 내진 해석, 분자 모델링, 유전체학, 렌더링 및 기타 GPU 기반 HPC 워크로드를 실행하기에 적합합니다. HPC 애플리케이션에는 뛰어난 네트워크 성능, 빠른 스토리지, 대용량 메모리, 뛰어난 컴퓨팅 성능 또는 위의 모든 성능이 필요할 때가 많습니다. P4d 인스턴스는 EFA를 지원하므로 메시지 전달 인터페이스(MPI)를 사용하여 수천 개의 GPU로 확장되는 HPC 애플리케이션을 지원할 수 있습니다. AWS Batch 및 AWS ParallelCluster는 HPC 개발 작업에서 분산 HPC 애플리케이션을 빠르게 구축하고 확장하는 데 도움이 됩니다.

자세히 알아보기

블로그 게시물 및 기사

기계 학습 및 HPC를 위한 GPU 탑재 EC2 P4

작성자: Jeff Barr, 2020년 11월 2일

블로그 읽기

Amazon EC2 P4d 인스턴스 심층 분석

작성자: Amr Ragab, 2020년 11월 2일

블로그 읽기

추가 리소스

AWS 시작하기

1단계: AWS 계정 가입

AWS 프리 티어에 즉시 액세스할 수 있습니다.

자세히 알아보기

2단계: 10분 자습서로 학습

간단한 자습서를 통해 자세히 알아보세요.

자세히 알아보기

3단계: AWS를 사용하여 구축 시작

AWS 프로젝트를 시작하는 데 도움이 되는 단계별 안내서를 통해 구축을 시작하세요.

자세히 알아보기

Amazon EC2 P4 인스턴스