Amazon EC2 P5 인스턴스

딥 러닝 및 HPC 애플리케이션을 위한 최고 성능의 GPU 기반 인스턴스

Amazon EC2 P5 인스턴스 시작하기

최신 NVIDIA H100 Tensor Core GPU로 구동되는 Amazon Elastic Compute Cloud(Amazon EC2) P5 인스턴스는 딥 러닝(DL) 및 고성능 컴퓨팅(HPC) 애플리케이션을 위한 Amazon EC2 최고의 성능을 제공합니다. 이전 세대 GPU 기반 EC2 인스턴스 대비 솔루션을 구현하는 시간을 최대 4배 앞당기고 ML 모델 훈련 비용을 최대 40%까지 절감할 수 있습니다. P5 인스턴스를 사용하면 솔루션을 더 빠르게 반복하여 시장에 더 빨리 출시할 수 있습니다. P5 인스턴스를 사용하여 점점 복잡해지는 대규모 언어 모델(LLM) 및 가장 까다로운 생성형 인공 지능(AI) 애플리케이션을 지원하는 Diffusion 모델을 훈련하고 배포할 수 있습니다. 이러한 애플리케이션에는 질문 응답, 코드 생성, 비디오 및 이미지 생성, 음성 인식 등이 포함되어 있습니다. 또한 P5 인스턴스를 사용하여 제약 발견, 지진 분석, 기상 예측 및 금융 모델링의 까다로운 HPC 애플리케이션을 대규모로 배포할 수 있습니다.

이러한 성능 개선 사항과 비용 절감을 위해 P5 인스턴스는 이전 세대 GPU 기반 인스턴스 대비 2배 더 뛰어난 CPU 성능, 2배 더 높은 시스템 메모리, 4배 더 많은 로컬 스토리지로 NVIDIA H100 Tensor Core GPU를 보완합니다. 2세대 Elastic Fabric Adapter(EFAv2) 기술을 사용하여 최대 3,200Gbps의 네트워킹을 통해 분산 훈련 및 긴밀하게 결합된 HPC 워크로드를 위한 업계 최고의 확장 기능을 제공합니다. 짧은 지연 시간에 대규모 컴퓨팅을 제공하기 위해 P5 인스턴스를 Amazon EC2 UltraClusters에 배포하며, 이렇게 하면 H100 GPU를 최대 20,000개까지 확장할 수 있습니다. 이 인스턴스는 페타비트급 비차단 네트워크와 상호 연결됩니다. EC2 UltraClusters의 P5 인스턴스는 최대 20엑사플롭스의 총 컴퓨팅 기능을 제공합니다. 이는 슈퍼컴퓨터와 동등한 성능입니다.

Amazon EC2 P5 인스턴스(1:24)

P5 인스턴스를 지금 예약한 후 나중에 사용 가능

ML용 Amazon EC2 용량 블록을을 사용하면 P5 인스턴스를 최대 8주 전에 쉽게 예약할 수 있습니다. P5 인스턴스를 1~14일 동안 예약하고 1~64개 인스턴스(512 GPU)의 클러스터 크기로 예약할 수 있어 광범위한 워크로드를 실행할 수 있는 유연성을 제공합니다.

장점

1000억 개 이상의 파라미터 모델을 대규모로 훈련

P5 인스턴스는 초대형 생성형 AI 모델을 대규모로 훈련할 수 있으며 이전 세대 GPU 기반 EC2 인스턴스보다 최대 4배 높은 성능을 제공합니다.

솔루션 구현 시간 단축 및 반복 속도 향상

P5 인스턴스는 훈련 시간과 솔루션 구현 시간을 몇 주에서 며칠로 단축할 수 있습니다. 이를 통해 더 빠른 속도로 반복하고 더 빠르게 시장에 출시할 수 있습니다.

DL 및 HPC 인프라 비용 절감

P5 인스턴스는 이전 세대 GPU 기반 EC2 인스턴스에 비해 DL 훈련 및 HPC 인프라 비용을 최대 40% 절감합니다.

엑사스케일 컴퓨팅으로 분산 훈련 및 HPC 실행

P5 인스턴스는 최대 3,200Gbps의 EFAv2 네트워킹을 제공합니다. 이 인스턴스는 EC2 UltraClusters에 배포되며 20엑사플롭스의 총 컴퓨팅 기능을 제공합니다.

기능

NVIDIA H100 Tensor Core GPU

P5 인스턴스는 인스턴스당 총 최대 640GB의 HBM3 GPU 메모리와 함께 최대 8개의 NVIDIA H100 GPU를 제공합니다. P5 인스턴스는 최대 900Gb/s의 NVSwitch GPU 상호 연결(각 인스턴스에서 총 3.6TB/s의 양방향 대역폭)을 지원하므로 각 GPU에서 단일 홉 지연 시간으로 동일한 인스턴스의 다른 모든 GPU와 통신할 수 있습니다.

새로운 트랜스포머 엔진 및 DPX 지침

NVIDIA H100 GPU에는 FP8 및 16비트 계산을 지능적으로 관리하고 동적으로 선택하는 새로운 트랜스포머 엔진이 있습니다. 이 기능은 이전 세대 A100 GPU에 비해 LLM에서 더 빠른 향상된 DL 훈련 속도를 제공합니다. HPC 워크로드를 위해 NVIDIA H100 GPU에는 A100 GPU에 비해 동적 프로그래밍 알고리즘을 더욱 가속화하는 새로운 DPX 명령이 있습니다.

고성능 네트워킹

P5 인스턴스는 최대 3,200Gbps의 EFAv2 네트워킹을 제공합니다. EFAv2는 분산 훈련 워크로드의 집단 커뮤니케이션 성능을 최대 50% 개선합니다. EFAv2를 NVIDIA GPUDirect RDMA와 함께 사용하면 운영 체제 바이패스를 통해 여러 서버의 GPU 간 통신 지연 시간을 낮출 수 있습니다.

고성능 스토리지

P5 인스턴스는 Amazon FSx for Lustre 파일 시스템을 지원하므로 대규모 DL 및 HPC 워크로드에 필요한 수백 GB/s의 처리량과 수백만 IOPS로 데이터에 액세스할 수 있습니다. 각 P5 인스턴스는 또한 대규모 데이터 세트에 대한 빠른 액세스를 위해 최대 30TB의 로컬 NVMe SSD 스토리지를 제공합니다. 또한 Amazon Simple Storage Service(S3)를 통해 비용 효율적인 스토리지를 거의 무제한으로 사용할 수 있습니다.

2세대 EC2 UltraClusters

P5 인스턴스는 2세대 EC2 UltraClusters에 배포됩니다. 이 클러스터는 이전 세대 UltraClusters보다 확장성을 높이고, 클러스터 전반의 네트워크 홉을 줄이고, 지연 시간을 낮출 수 있는 네트워크 패브릭을 제공합니다. UltraClusters의 P5 인스턴스는 페타비트급 네트워크와 상호 연결된 H100 GPU를 최대 20,000개까지 확장할 수 있으며 20엑사플롭스의 총 컴퓨팅 기능을 제공할 수 있습니다.

다른 AWS 서비스와의 원활한 통합

P5 인스턴스는 AWS Deep Learning AMI(DLAMI) 및 AWS Deep Learning Containers를 사용하여 배포할 수 있습니다. Amazon SageMaker, Amazon Elastic Kubernetes Service(Amazon EKS), Amazon Elastic Container Service(Amazon ECS), AWS Batch 등과 같은 관리형 서비스를 통해 사용할 수 있습니다.

고객 성공 사례

Anthropic은 신뢰할 수 있고, 해석할 수 있으며, 조종 가능한 AI 시스템을 구축합니다. 이 시스템은 상업적으로나, 그리고 퍼블릭의 이익을 위하여 가치를 창출할 수 있는 많은 기회를 갖게 될 것입니다.

“Anthropic에서는 신뢰할 수 있고 해석 가능하며 조정 가능한 AI 시스템을 구축하기 위해 노력합니다. 오늘날의 대형 일반 AI 시스템은 상당한 이점이 있지만 예측이 불가능하고 신뢰할 수 없으며 불투명할 수도 있습니다. 우리의 목표는 이러한 문제를 진전시키고 사람들이 유용하다고 생각하는 시스템을 배포하는 것입니다. 우리 조직은 DL 연구의 파운데이션 모델을 구축하고 있는 세계에서 몇 안 되는 조직 중 하나입니다. 파운데이션 모델은 매우 복잡하기 때문에 이러한 최첨단 모델을 개발하고 훈련시키려면 대규모 GPU 클러스터에 효율적으로 배포해야 합니다. 현재 Amazon EC2 P4 인스턴스를 광범위하게 사용 중이며 P5 인스턴스를 출시하게 되어 기쁩니다. P4d 인스턴스에 비해 상당한 가격 대비 성능 이점을 제공할 것으로 예상되며, 차세대 LLM 및 관련 제품을 구축하는 데 필요한 방대한 규모로 사용할 수 있을 것으로 예상됩니다.”

Tom Brown, Anthropic 공동창립자

언어 AI 분야의 선도적인 선구자인 Cohere는 모든 개발자와 기업이 데이터를 비공개로 안전하게 유지하면서 세계 최고의 자연어 처리(NLP) 기술을 사용하여 놀라운 제품을 만들 수 있도록 지원합니다.

“Cohere는 모든 기업이 언어 AI의 힘을 활용하여 자연스럽고 직관적인 방식으로 정보를 탐색, 생성, 검색하고 이에 따라 조치를 취하도록 돕고 각 고객에게 가장 적합한 데이터 환경의 여러 클라우드 플랫폼에 배포를 지원하는 데 앞장서고 있습니다. NVIDIA H100 기반 Amazon EC2 P5 인스턴스는 Cohere의 최첨단 LLM 및 생성형 AI 기능과 결합된 컴퓨팅 파워를 통해 기업이 더 빠르게 생성, 성장, 확장할 수 있는 능력을 제공합니다.”

Aidan Gomez, Cohere의 CEO

AWS 계정에 가입

Hugging Face는 좋은 기계 학습의 대중화를 사명으로 삼고 있습니다.

“가장 빠르게 성장하는 ML용 오픈 소스 커뮤니티인 우리는 이제 NLP, 컴퓨터 비전, 생물학, 강화 학습 등을 위해 150,000개 이상의 사전 훈련된 모델과 25,000개 이상의 데이터 세트를 플랫폼에서 제공합니다. LLM과 생성형 AI가 크게 발전하면서 우리는 AWS와 협력하여 미래의 오픈 소스 모델을 구축하고 기여하고 있습니다. UltraClusters에서 EFA와 함께 대규모로 Amazon SageMaker를 통해 Amazon EC2 P5 인스턴스를 사용하여 모두를 위한 새로운 기반 AI 모델을 빠르게 제공할 수 있기를 기대합니다.”

Julien Chaumond, Hugging Face의 CTO 겸 공동창립자

제품 세부 정보

인스턴스 크기	vCPU	인스턴스 메모리(TiB)	GPU - H100	GPU 메모리	네트워크 대역폭	GPUDirectRDMA	GPU P2P	인스턴스 스토리지(TB)	EBS 대역폭(Gbps)
p5.48xlarge	192	2	8	640GB HBM3	3200Gbps EFAv2	예	900GB/s NVSwitch	8 x 3.84 NVMe SSD	80

*위의 요금은 미국 동부(버지니아 북부) AWS 리전의 Linux/Unix에 적용되며, 가장 가까운 센트로 반올림됩니다. 전체 요금 내역은 Amazon EC2 요금을 참조하세요.

ML용 P5 인스턴스 시작하기

SageMaker 사용

SageMaker는 기계 학습 모델의 구축, 훈련 및 배포를 위한 완전관리형 서비스입니다. P5 인스턴스와 함께 사용하면 수십, 수백 또는 수천 개의 GPU로 손쉽게 확장하여 클러스터와 데이터 파이프라인 설정에 대한 걱정 없이 모든 규모에서 신속하게 모델을 훈련할 수 있습니다.

DLAMI 또는 Deep Learning Containers 사용

DLAMI는 ML 실무자 및 연구원에게 규모와 관계없이 클라우드에서 DL을 가속화할 수 있는 인프라 및 도구를 제공합니다. Deep Learning Containers는 DL 프레임워크가 사전에 설치된 도커 이미지로, 처음부터 환경을 구축하고 최적화하는 복잡한 프로세스를 건너뜀으로써 사용자 지정 기계 학습 환경 배포를 간소화할 수 있도록 지원합니다.

Amazon EKS 또는 Amazon ECS 사용

컨테이너 오케스트레이션 서비스를 통해 자체 컨테이너식 워크로드를 관리하고자 하는 경우 Amazon EKS 또는 Amazon ECS를 통해 P5 인스턴스를 배포할 수 있습니다.

HPC용 P5 인스턴스 시작하기

P5 인스턴스는 엔지니어링 시뮬레이션, 컴퓨팅 금융, 내진 해석, 분자 모델링, 유전체학, 렌더링 및 기타 GPU 기반 HPC 워크로드를 실행하기에 적합한 플랫폼입니다. HPC 애플리케이션에는 뛰어난 네트워크 성능, 빠른 스토리지, 대용량 메모리, 뛰어난 컴퓨팅 성능 또는 위의 모든 성능이 필요할 때가 많습니다. P5 인스턴스는 EFAv2를 지원하므로 메시지 전달 인터페이스(MPI)를 사용하여 수천 개의 GPU로 확장되는 HPC 애플리케이션을 지원할 수 있습니다. AWS Batch 및 AWS ParallelCluster는 HPC 개발 작업에서 분산 HPC 애플리케이션을 빠르게 구축하고 확장하는 데 도움이 됩니다.

자세히 알아보기 »

AWS 시작하기

AWS 계정에 가입

AWS 계정 가입

AWS 프리 티어에 즉시 액세스할 수 있습니다.

간단한 자습서로 학습

10분 자습서로 알아보기

간단한 자습서를 통해 자세히 알아보세요.

콘솔에서 EC2 구축 시작

콘솔에서 구축 시작

AWS 프로젝트를 시작하는 데 도움이 되는 단계별 안내서를 통해 구축을 시작하십시오.