메인 콘텐츠로 건너뛰기

Amazon EC2

AWS EC2 Trn3 인스턴스

차세대 에이전트, , 추론 및 비디오 생성 애플리케이션을 위한 최고의 토큰 경제성을 제공하기 위해 특별히 제작되었습니다.

Amazon EC2 Trn3 UltraServer를 선택해야 하는 이유

오늘날의 프론티어 모델은 토큰이 1백만 개가 넘는 긴 컨텍스트를 지원하는 1조 파라미터의 멀티모달 모델을 변화시키고 있습니다. 이를 위해서는 차세대 스케일업 고성능 컴퓨팅이 필요합니다. Amazon EC2 Trn3 UltraServer와 AWS Neuron 개발자 스택은 이러한 요구에 맞게 특별히 구축되어, 차세대 에이전트 및 추론 시스템을 대규모로 훈련하고 지원하는 데 필요한 성능, 비용 효율성 및 에너지 효율성을 제공합니다. 

Amazon EC2 Trn3 UltraServer는 차세대 에이전트, 추론 및 비디오 생성 애플리케이션에 최고의 토큰 경제성을 제공하도록 특별히 설계된 최초의 3nm AWS AI 칩인 4세대 AI 칩, Trainium3으로 구동됩니다.

Trn3 UltraServer는 Trn2 UltraServer에 비해 최대 4.4배 더 높은 성능, 3.9배 높은 메모리 대역폭, 4배가 넘도록 향상된 와트당 성능을 제공합니다. 이는 강화 학습, 전문가 조합(MoE), 추론 및 장기 컨텍스트 아키텍처를 포함한 프론티어 스케일 모델의 훈련 및 서비스에 가장 적절한 가격 대비 성능입니다. Trn3 UltraServer는 가격 대비 성능 및 확장성 측면에서 Trainium 제품군의 선두 자리를 이어가며, 빠른 훈련을 지원하고, 더욱 고성능의 차세대 파운데이션 모델을 더욱 비용 효율적으로 배포할 수 있게 합니다.

Trn3 UltraServer는 Trainium3 칩을 최대 144개(최대 362페타플롭[FP8])까지 스케일 업할 수 있으며, EC2 UltraClusters 3.0에서 사용이 가능하여 수십만 개의 칩으로 규모를 조정할 수 있습니다. 차세대 Trn3 UltraServer에는 칩당 2TB/s의 대역폭을 제공하는 NeuronLink-v4를 사용하는 올투올 패브릭인 NeuronSwitch-v1이 탑재되어 있습니다.

PyTorch, JAX, Hugging Face Optimum Neuron 및 기타 라이브러리에 대한 기본 지원과 Amazon SageMaker, EKS, ECS, AWS Batch 및 ParallelCluster 전반에서의 완벽한 호환성 덕분에 간단한 시작이 가능합니다.

Missing alt text value

이점

AWS Trainium3 칩으로 구동되는 Trn3 UltraServer는 Trn2 UltraServer 대비 최대 4.4배 더 높은 성능, 3.9배 더 높은 메모리 대역폭, 4배 더 향상된 와트당 성능을 제공합니다. Amazon Bedrock에서 Trainium3는 가장 빠른 액셀러레이터로, Trainium2보다 최대 3배 빠른 성능을 제공합니다. 이러한 놀라운 성능 향상은 Trainium2 기반 인스턴스에 비해 대규모 서비스를 제공하는 GPT-OSS와 같은 모델의 처리량이 상당히 증가하면서도, 사용자당 지연 시간은 짧게 유지된다는 의미이기도 합니다.

각 Trn3 UltraServer는 최대 144개의 Trainium3 칩으로 스케일 업할 수 있으며, 새로운 랙은 Trn2에 비해 2배 이상의 칩 밀도를 제공하여 랙당 컴퓨팅 성능을 높이고 데이터 센터 효율성을 개선합니다. Trn3 UltraServer는 AWS Nitro System 및 Elastic Fabric Adapter(EFA)를 기반으로 구축되었으며, 비차단적 멀티 페타비트 규모의 EC2 UltraClusters 3.0에 배포되므로 분산 훈련 및 서비스를 위해 수십만 개의 Trainium 칩으로 규모를 조정할 수 있습니다.

Trn3 인스턴스는 뛰어난 성능의 선두 주자라는 Trainium의 유산을 이어가며, 기존 AI 액셀러레이터보다 우수한 가격 대비 성능을 제공하여 토큰당 비용과 실험당 비용 절감에 도움을 줍니다. GPT-OSS 및 프론티어 스케일 LLM과 같은 워크로드의 처리량이 증가하면 추론 비용이 낮아지고 가장 까다로운 모델의 훈련 시간도 단축됩니다.

AWS 최초의 3nm AI 칩인 AWS Trainium3 칩은 차세대 에이전트, 추론 및 비디오 생성 애플리케이션을 위한 최고의 토큰 경제성을 제공하도록 최적화되었습니다. Trn3 UltraServer는 Trn2 UltraServer보다 4배 이상 뛰어난 에너지 효율성을 제공하며 이는 Amazon Bedrock에서도 마찬가지입니다.  실제 서비스에서 Trn3는 Trn2 UltraServer보다 메가와트당 5배 이상 높은 출력 토큰을 달성하면서도, 사용자당 지연 시간은 비슷하게 유지되어 성능 저하 없이 지속 가능성 목표를 달성할 수 있습니다.

Trn3 UltraServer는 AWS Trainium 및 AWS Inferentia의 개발자 스택인 AWS Neuron을 기반으로 하므로 코드 변경 없이 기존 PyTorch 및 JAX 코드를 실행할 수 있습니다.

TNeuron은 vLLM, Hugging Face Optimum Neuron, PyTorch Lightning, TorchTitan 등 인기 있는 ML 라이브러리를 지원하며, Amazon SageMaker, Amazon SageMaker HyperPod, Amazon EKS, Amazon ECS, AWS Batch, AWS ParallelCluster 등의 서비스와 통합됩니다.

기능

각 AWS Trainium3 칩은 2.52페타플롭의 FP8 컴퓨팅 성능을 제공하며, Trn3 UltraServer는 최대 144개의 Trainium3 칩까지 확장되어 단일 UltraServer에서 최대 362페타플롭의 총 FP8 컴퓨팅 성능을 제공합니다. 이 고밀도 컴퓨팅 엔벨로프는 프론티어 규모의 트랜스포머, 전문가 조합 모델 및 장기 컨텍스트 아키텍처를 훈련하고 제공하기 위해 설계되었습니다.

AWS Trainium3는 이전 세대의 메모리 용량과 대역폭을 모두 제공하며, 각 칩은 144GB의 HBM3e와 4.9TB/s의 메모리 대역폭을 제공합니다. Trn3 UltraServer는 최대 20.7TB의 HBM3e와 706TB/s의 총 메모리 대역폭을 제공하므로 배치 크기를 늘리고 컨텍스트 창을 확장하며 초대형 멀티모달, 비디오 및 추론 모델의 활용도를 높일 수 있습니다.

Trn3 UltraServer는 Trn2 UltraServer의 칩 간 인터커넥트 대역폭을 두 배로 늘려 모델 병렬 효율성을 개선하고, MoE 및 텐서 병렬 훈련을 위한 통신 오버헤드를 줄이는 올투올 패브릭인 NeuronSwitch-v1을 도입했습니다. Trn3 UltraServer는 UltraServer당 최대 144개의 칩을 지원하며, 이는 Trn2 UltraServer보다 2배 이상 많은 수입니다. 대규모 분산 훈련을 위해, AWS에서는 단일 비차단 페타비트 규모의 네트워크에 수십만 개의 Trainium3 칩이 포함된 UltraCluster 3.0에 Trn3 UltraServer를 배포합니다.

Trainium3는 FP32, BF16, MXFP8 및 MXFP4 정밀 모드를 지원하므로 고밀도 및 전문가 병렬 워크로드 전반에서 정확성과 효율성의 균형을 맞출 수 있습니다. 내장형 집합 통신 엔진은 대규모 트랜스포머, 디퓨전 및 전문가 조합 모델의 동기화를 가속화하고 훈련 오버헤드를 줄여 대규모 엔드 투 엔드 훈련 처리량을 개선합니다.

Trn3 UltraServer는 AWS Trainium 및 AWS Inferentia용 컴파일러, 런타임, 훈련 및 추론 라이브러리, 개발자 도구를 제공하는 AWS Neuron SDK를 사용하여 프로그래밍됩니다. Neuron Kernel Interface(NKI)는 Trainium 명령 세트, 메모리 및 실행 스케줄링에 대한 저수준 액세스를 제공하므로, 성능 엔지니어는 사용자 지정 커널을 구축하고 표준 프레임워크 이상으로 성능을 높일 수 있습니다. Neuron Explorer는 PyTorch 및 JAX 코드에서 하드웨어 운영까지 실행을 추적하고 샤딩 전략, 커널 최적화 및 대규모 분산 실행에 대한 실행 가능한 인사이트를 제공하는 통합 프로파일링 및 디버깅 환경을 조성합니다.

오늘 원하는 내용을 찾으셨나요?

페이지의 콘텐츠 품질을 개선할 수 있도록 피드백을 보내주십시오.