Amazon EC2

Amazon EC2 UltraClusters

대규모 HPC 및 ML 애플리케이션 실행

P6e-GB200으로 시작하기

Trn2로 시작하기

Amazon EC2 UltraClusters를 선택해야 하는 이유

Amazon Elastic Compute Cloud(Amazon EC2) UltraClusters를 사용하면 수천 개의 GPU 또는 AWS Trainium 등 특별히 구축된 ML AI 칩을 확장하여 슈퍼컴퓨터에 온디맨드로 액세스할 수 있습니다. 설정 또는 유지 관리 비용 없는 간단한 종량 과금제 사용량 모델을 통해 기계 학습(ML), 생성형 AI, 고성능 컴퓨팅(HPC) 개발자 누구나 슈퍼컴퓨터급 성능을 이용할 수 있습니다. EC2 UltraClusters에 배포되는 Amazon EC2 인스턴스에는 P6e-GB200, P6-B200, P5en, P5e, P5, P4d, Trn2, Trn1 인스턴스가 있습니다.

EC2 UltraClusters는 지정된 AWS 가용 영역에 콜로케이션되고 페타비트 규모의 비차단 네트워크에서 Elastic Fabric Adapter(EFA) 네트워킹을 사용하여 상호 연결된 수천 개의 가속화된 EC2 인스턴스로 구성됩니다. 또한 EC2 UltraCluster는 가장 인기 있는 고성능 병렬 파일 시스템을 기반으로 구축된 완전 관리형 공유 스토리지인 Amazon FSx for Lustre에 대한 액세스를 제공합니다. 이 스토리지는 밀리초 미만의 지연 시간으로 대규모 데이터 세트를 온디맨드 방식으로 대규모 데이터 세트를 신속하게 처리합니다. EC2 UltraClusters는 분산형 ML 훈련 및 긴밀하게 결합된 HPC 워크로드를 위한 스케일 아웃 기능을 제공합니다.

장점

EC2 UltraClusters는 훈련 시간과 솔루션 구현 시간을 몇 주에서 단 며칠로 단축할 수 있습니다. 이를 통해 더 빠른 속도로 반복하고 딥 러닝(DL), 생성형 AI, HPC 애플리케이션을 더 빠르게 시장에 출시할 수 있습니다.

EC2 UltraClusters는 지정된 AWS 가용 영역에 콜로케이션되고 페타비트 규모의 비차단 네트워크에서 Elastic Fabric Adapter(EFA) 네트워킹을 사용하여 상호 연결된 수천 개의 가속화된 EC2 인스턴스로 구성됩니다. 엑사플롭스 단위의 가속화된 컴퓨팅에 온디맨드로 액세스할 수 있습니다.

지원하는 EC2 인스턴스가 늘어나고 있는 EC2 UltraClusters는 워크로드 비용을 제어하면서 성능을 극대화하기에 적합한 컴퓨팅 옵션을 선택할 수 있는 유연성을 제공합니다.

기능

고성능 네트워킹

EC2 UltraClusters에 배포되는 EC2 인스턴스는 EFA 네트워킹과 상호 연결되어 분산 훈련 워크로드 및 긴밀하게 결합된 HPC 워크로드의 성능을 개선합니다. P6e-GB200 UltraServers는 초당 최대 28.8테라비트의 총 EFAv4 네트워킹을 제공합니다. P6-B200 인스턴스는 초당 최대 3.2테라비트의 EFAv4 네트워킹을 제공합니다. Trn2 UltraServer는 초당 12.8테라비트의 EFAv3 네트워킹을 제공합니다. P5en, P5e, P5, Trn2 인스턴스는 최대 3,200Gbps, Trn1 인스턴스는 최대 1,600Gbps, P4d 인스턴스는 최대 400Gbps의 EFA 네트워킹을 제공합니다. EFA는 NVIDIA GPUDirect Remote Direct Memory Access(RDMA)(P6-B200, P5en, P5e, P5, P4d) 및 NeuronLink(Trn2, Trn1)와도 결합되어 운영 체제를 우회하여 서버 사이에서 지연 시간이 짧은 액셀러레이터 간 통신을 가능하게 합니다.

고성능 스토리지

EC2 UltraClusters는 가장 널리 사용되는 고성능 병렬 파일 시스템을 기반으로 구축된 완전관리형 공유 스토리지인 FSx for Lustre를 사용합니다. FSx for Lustre를 사용하면 방대한 데이터세트를 온디맨드로 신속하게 대규모로 처리하고 1밀리초 미만의 지연 시간을 제공할 수 있습니다. FSx for Lustre의 짧은 지연 시간과 높은 처리량 특성은 EC2 UltraClusters의 DL, 생성형 AI, HPC 워크로드에 최적화되어 있습니다. FSx for Lustre는 EC2 UltraCluster의 GPU와 AI 칩에 데이터를 지속적으로 공급하여 가장 까다로운 워크로드를 가속화합니다. 이러한 워크로드에는 대규모 언어 모델(LLM) 훈련, 생성형 AI 추론, DL, 유전체학, 재무 위험 모델링이 포함됩니다. Amazon Simple Storage Service(S3)를 통해 비용 효율적인 스토리지에 거의 무제한으로 액세스할 수도 있습니다.

인스턴스 및 UltraServer 지원

P6e-GB200 UltraServers

NVIDIA GB200 NVL72로 가속화된 UltraServer 구성 기반 P6e-GB200 인스턴스는 Amazon EC2에서 가장 높은 GPU AI 훈련 및 추론 기능을 제공합니다.

자세히 알아보기

P6-B200 인스턴스

NVIDIA Blackwell GPU로 가속화된 Amazon EC2 P6-B200 인스턴스는 AI 훈련, 추론, HPC를 위한 고성능 인스턴스를 제공합니다.

자세히 알아보기

Trn2 인스턴스 및 UltraServers

AWS Trainium2 AI 칩으로 구동되는 Trn2 인스턴스는 유사한 GPU 기반 인스턴스에 비해 가격 대비 성능이 최대 30%~40% 더 높습니다.

자세히 알아보기

P5en, P5e, P5 인스턴스

NVIDIA H200 Tensor Core GPU로 구동되는 P5en 및 P5e 인스턴스는 Amazon EC2에서 ML 훈련 및 HPC 애플리케이션을 위한 고성능을 제공합니다. P5 인스턴스는 NVIDIA H100 Tensor Core GPU로 구동됩니다.

자세히 알아보기

P4d 인스턴스

NVIDIA A100 Tensor Core GPU로 구동되는 P4d 인스턴스는 ML 훈련 및 HPC 애플리케이션을 위한 고성능을 제공합니다.

자세히 알아보기

Trn1 인스턴스

AWS Trainium AI 칩으로 구동되는 Trn1 인스턴스는 고성능 ML 훈련용으로 특별히 구축되었습니다. 동급 EC2 인스턴스보다 최대 50% 저렴한 훈련 비용을 제공합니다.

자세히 알아보기

시작하기

AWS 계정에 가입

AWS 프리 티어에 즉시 액세스할 수 있습니다

자습서

10분 자습서로 알아보기

간단한 자습서를 통해 자세히 알아보십시오.

오늘 원하는 내용을 찾으셨나요?

페이지의 콘텐츠 품질을 개선할 수 있도록 피드백을 보내주세요.

Amazon EC2 UltraClusters

Amazon EC2 UltraClusters를 선택해야 하는 이유

장점

기능

고성능 네트워킹

고성능 스토리지

인스턴스 및 UltraServer 지원

P6e-GB200 UltraServers

P6-B200 인스턴스

Trn2 인스턴스 및 UltraServers

P5en, P5e, P5 인스턴스

P4d 인스턴스

Trn1 인스턴스

시작하기

AWS 계정에 가입

10분 자습서로 알아보기

오늘 원하는 내용을 찾으셨나요?

알아보기

리소스

개발자

도움말

Amazon EC2 UltraClusters

Amazon EC2 UltraClusters를 선택해야 하는 이유

장점

분산 훈련 및 HPC 솔루션 구현 시간 단축

엑사스케일 슈퍼컴퓨터에 온디맨드 액세스

유연한 성능 및 비용 최적화

기능

고성능 네트워킹

고성능 스토리지

인스턴스 및 UltraServer 지원

P6e-GB200 UltraServers

P6-B200 인스턴스

Trn2 인스턴스 및 UltraServers

P5en, P5e, P5 인스턴스

P4d 인스턴스

Trn1 인스턴스

시작하기

AWS 계정에 가입

10분 자습서로 알아보기

오늘 원하는 내용을 찾으셨나요?

알아보기

리소스

개발자

도움말