메인 콘텐츠로 건너뛰기

AWS AI 칩

AWS Trainium

Trainium3는 차세대 에이전트, 추론 및 비디오 생성 애플리케이션을 위한 최고의 토큰 경제성을 제공하기 위해 특별히 설계된 최초의 3nm AWS AI 칩입니다.

Trainium을 선택해야 하는 이유

AWS Trainium은 Trn1, Trn2, Trn3로 구성된 목적별 AI 액셀러레이터 제품군으로, 다양한 생성형 AI 워크로드에서 학습과 추론을 위한 확장 가능한 성능과 비용 효율성을 제공하도록 설계되었습니다.

AWS Trainium 제품군

Trainium1

1세대 AWS Trainium 칩은 동급 Amazon EC2 인스턴스보다 훈련 비용이 최대 50% 낮은 Amazon Elastic Compute Cloud(Amazon EC2) Trn1 인스턴스를 구동합니다. Ricoh, Karakuri, SplashMusic, Arcee AI를 비롯한 많은 고객이 Trn1 인스턴스의 성능 및 비용 이점을 실현하고 있습니다.

Trainium2

AWS Trainium2 칩은 1세대 Trainium보다 최대 4배 높은 성능을 제공합니다. Trainium2 기반 Amazon EC2 Trn2 인스턴스와 Trn2 UltraServer는 GPU 기반 EC2 P5e 및 P5en 인스턴스보다 30~40% 우수한 가격 대비 성능을 제공하는, 생성형 AI용 목적별 인스턴스입니다. Trn2 인스턴스는 최대 16개의 Trainium2 칩을 탑재하며, Trn2 UltraServer는 AWS의 독자적인 칩 간 상호 연결 기술인 NeuronLink로 상호 연결된 최대 64개의 Trainium2 칩을 탑재합니다. Trn2 인스턴스와 UltraServer를 사용하여 대규모 언어 모델(LLM), 멀티모달 모델, 확산 트랜스포머 등 가장 까다로운 모델을 훈련 및 배포하여 광범위한 차세대 생성형 AI 애플리케이션을 구축할 수 있습니다.

Trainium3

Trn3 UltraServer는 AWS 최초의 3nm AI 칩인 AWS Trainium3 기반의 4세대 AI 칩으로 구동되며, 차세대 에이전트와 추론 및 비디오 생성 애플리케이션에 최고의 토큰 경제성을 제공하도록 특별히 설계되었습니다. Trn3 UltraServer는 Trn2 UltraServer에 비해 최대 4.4배 더 높은 성능, 3.9배 높은 메모리 대역폭, 4배 이상 향상된 에너지 효율을 제공합니다. 이는 강화 학습, 전문가 조합(MoE), 추론 및 장기 컨텍스트 아키텍처를 포함한 프론티어 스케일 모델의 훈련 및 서비스에 가장 적절한 가격 대비 성능입니다.

각 AWS Trainium3 칩은 2.52 페타플롭의 FP8 연산 성능을 제공하며, Trainium2 대비 메모리 용량이 1.5배, 대역폭이 1.7배 높아 144GB의 HBM3e 메모리와 4.9TB/s의 메모리 대역폭을 구현합니다. Trainium3는 고급 데이터 유형(MXFP8 및 MXFP4)과 향상된 메모리-컴퓨팅 균형을 통해 실시간, 멀티모달 및 추론 작업에 최적화된, 고밀도 및 전문가 병렬 워크로드를 모두 지원하도록 설계되었습니다.

Amazon Bedrock에서 Trainium3는 가장 빠른 액셀러레이터로, Trainium2보다 최대 3배 빠른 성능을 제공하며 서비스에서 다른 어떤 액셀러레이터보다 3배 더 우수한 전력 효율성을 제공합니다. 대규모 서비스 테스트(예: GPT-OSS)에서 Trn3는 각 사용자에 대해 유사한 지연 시간으로 Trn2 대비 메가와트당 5배 이상의 출력 토큰을 제공합니다. 따라서 더 지속 가능하고 처리량이 높은 추론을 대규모로 구현할 수 있습니다.

개발자를 위한 설계

새로운 Trainium3 기반 인스턴스는 AI 연구원을 위해 구축되었으며, AWS Neuron SDK로 구동되어
획기적인 성능을 제공합니다. 

기본 PyTorch 통합을 사용하면 개발자는 코드를 단 한 줄도 변경하지 않고도 훈련을 실시해 배포할 수 있습니다. AI
성능 엔지니어의 경우, 우리는 Trainium3에 대한 심층 접근을 지원하여 개발자가 성능을 미세 조정하고
커널을 맞춤화하며 모델 성능을 더욱 개선하도록 지원하고 있습니다. 혁신은 개방성 증진으로 이어지므로, 우리는
오픈 소스 도구와 리소스를 통해 개발자와 소통하고자 최선을 다합니다. 

자세히 알아보려면 Amazon EC2 Trn3 인스턴스를 방문하거나, AWS Neuron SDK를 살펴보거나, 평가판에 가입하세요.

이점

Trn3 UltraServer는 최대 144개의 Trainium3 칩 간의 더 빠른 올투올 집합 통신을 제공하는 NeuronSwitch-v1을 탑재해,
스케일 업 UltraServer 기술을 이용한 최신 혁신을 선사합니다. 종합하면 단일 Trn3 UltraServer는
최대 20.7TB의 HBM3e, 706TB/s의 메모리 대역폭, 362페타플롭의 FP8 성능을 제공하며, 이를 통해 Trn2 UltraServer 대비 최대 4.4배 향상된 성능과
4배 이상의 에너지 효율성을 구현합니다. Trn3는 1조 개 이상의
최신 파라미터를 가진 MoE 및 추론형 모델의 훈련과 추론을 수행할 때 최저 비용으로 최고의 성능을 제공하며, Trainium2 기반 인스턴스에 비해 대규모 GPT-OSS 서비스에서
훨씬 더 높은 처리량을 구현합니다.

Trn2 UltraServer는 여전히 최대 1조 개의 파라미터를 가진 모델의 생성형 AI 훈련 및 추론을 위한
고성능 및 비용 효율적인 선택지입니다. Trn2 인스턴스는 최대 16개의 Trainium2 칩을 탑재하며, Trn2 UltraServer는
독자적인 칩 간 상호 연결 기술인 NeuronLink로 연결된 최대 64개의 Trainium2 칩을 탑재합니다.

Trn1 인스턴스는 최대 16개의 Trainium 칩을 탑재하며, 최대 3페타플롭의 FP8 성능, 9.8 TB/s 메모리 대역폭을 제공하는 512GB HBM,
최대 1.6 Tbps의 EFA 네트워킹을 지원합니다.

연구 및 실험을 위한 설계

AWS Neuron SDK를 사용하면 Trn3, Trn2 및 Trn1 인스턴스에서 최대 성능을 추출할 수 있으므로 모델을 구축 및 배포하고 출시 시간을 단축하는 데 집중할 수 있습니다. AWS Neuron은 PyTorch, JAX, 그리고 Hugging Face, vLLM, PyTorch Lightning 같은 필수 라이브러리와 기본적으로 통합됩니다. 분산 훈련 및 추론을 위해 즉시 모델을 최적화하는 동시에 프로파일링 및 디버깅에 대한 심층적인 인사이트를 제공합니다. AWS Neuron은 Amazon SageMaker, Amazon SageMaker Hyerpod, Amazon Elastic Kubernetes Service(Amazon EKS), Amazon Elastic Container Service(Amazon ECS), AWS ParallelCluster, AWS Batch 등의 서비스는 물론 Ray(Anyscale), Domino Data Lab, Datadog 같은 서드 파티 서비스와 통합됩니다.

정확도 목표를 충족하면서도 뛰어난 성능을 제공하기 위해, AWS Trainium은
BF16, FP16, FP8, MXFP8 및 MXFP4 같은 다양한 혼합 정밀도 데이터 유형을 지원합니다. 생성형 AI의 빠른 혁신 속도를 지원하기 위해,
Trainium2와와 Trainium3는 4배 희소성(16:4), 마이크로 스케일링, 확률적 반올림과 전용 집단 엔진에 대한
하드웨어 최적화를 제공합니다.

Neuron을 사용하면 개발자는 커널 개발에 Neuron Kernel Interface(NKI)를 사용하여 워크로드를 최적화할 수 있습니다. NKI는 Trainium ISA 전체를 노출하기 때문에 명령어 수준 프로그래밍, 메모리 할당 및 실행 스케줄링을 완벽하게 제어할 수 있습니다. 개발자는 자체 커널을 구축하고, 나아가 최적화된 커널을 배포할 수 있는 오픈 소스인 Neuron Kernel Library도 사용할 수 있습니다. 마지막으로, Neuron Explore는 전체 스택 가시성을 제공하여 개발자 코드를 하드웨어의 엔진에 연결합니다.

고객

Databricks, Ricoh, Karakuri, SplashMusic을 비롯한 고객은 Trn1 인스턴스의 성능 및 비용 이점을 실현하고 있습니다.

Anthropic, Databricks, poolside, Ricoh, NinjaTech AI를 비롯한 고객은 Trn1 및 Trn2 인스턴스에서 상당한 성능 및 비용 이점을 실현하고 있습니다.

Trn3의 얼리 어답터들은 차세대 대규모 생성형 AI 모델에 필요한 새로운 수준의 효율성과 확장성을 달성하고 있습니다.

Missing alt text value

AI 성능, 비용, 규모 확보

획기적인 AI 성능을 위한 AWS Trainium2

AWS AI 칩 고객 사례