- Amazon EC2›
- 인스턴스 유형›
- Trn2 인스턴스
Amazon EC2 Trn2 인스턴스 및 UltraServer를 사용해야 하는 이유
16개의 AWS Trainium2 칩으로 구동되는 Amazon EC2 Trn2 인스턴스는 생성형 AI용으로 특별히 구축되었으며, 수천억에서 조 단위 이상의 파라미터로 모델을 훈련하고 배포할 수 있는 고성능 EC2 인스턴스입니다. Trn2 인스턴스는 GPU 기반 EC2 P5e 및 P5en 인스턴스보다 30~40% 우수한 가격 대비 성능을 제공합니다. Trn2 인스턴스를 사용하면 비용을 절감하면서도 최첨단 훈련 및 추론 성능을 확보할 수 있으므로 훈련 시간을 단축하고, 더 빠르게 반복하고, 실시간 AI 기반 경험을 제공할 수 있습니다. Trn2 인스턴스를 사용하여 대규모 언어 모델(LLM), 멀티모달 모델, 확산 트랜스포머를 비롯한 모델을 훈련 및 배포하여 차세대 생성형 AI 애플리케이션을 구축할 수 있습니다.
가장 까다로운 최첨단 모델의 훈련 시간을 줄이고 획기적인 응답 시간(토큰당 지연 시간)을 제공하려면 단일 인스턴스가 제공할 수 있는 것보다 더 많은 컴퓨팅 및 메모리가 필요할 수 있습니다. Trn2 UltraServer는 AWS의 독자적인 칩 간 상호 연결인 NeuronLink를 사용하여 4개의 Trn2 인스턴스에 걸쳐 64개의 Trainium2 칩을 연결하여 단일 노드에서 사용 가능한 컴퓨팅, 메모리, 네트워크 대역폭을 4배로 늘리고 AWS에서 딥 러닝 및 생성형 AI 워크로드에 획기적인 성능을 제공합니다. 추론의 경우, UltraServer는 업계 최고의 응답 시간을 제공하여 최상의 실시간 경험을 제공합니다. 훈련의 경우, UltraServer는 모델 병렬화를 위한 더 빠른 집단 통신을 통해 독립 실행형 인스턴스와 비교해 모델 훈련 속도와 효율성을 향상시킵니다.
PyTorch, JAX와 같은 인기 있는 기계 학습(ML) 프레임워크에 대한 기본 지원을 제공하여 Trn2 인스턴스 및 Trn2 UltraServer에서 간편하게 시작할 수 있습니다.
“Trn2 UltraServer는 이제 가장 까다로운 생성형 AI 워크로드에 사용할 수 있습니다.”
이점
Trn2 인스턴스는 훈련 시간을 단축하고 최종 사용자에게 실시간 추론 경험을 제공하는 데 도움이 됩니다. Trn2 인스턴스는 AWS의 독자적인 칩 간 상호 연결인 NeuronLink로 상호 연결된 16개의 Trainium2 칩을 탑재하여 최대 20.8페타플롭의 FP8 컴퓨팅을 제공합니다. Trn2 인스턴스에는 총 1.5TB HBM3(46TBps 메모리 대역폭)과 3.2Tbps의 Elastic Fabric Adapter(EFAv3) 네트워킹이 포함되어 있습니다. Trn2 UltraServer(평가판으로 제공)는 NeuronLink로 연결된 64개의 Trainium2 칩을 탑재하고 있으며 최대 83.2페타플롭의 FP8 컴퓨팅, 총 6TB의 고대역폭 메모리, 총 185TBps의 메모리 대역폭, 12.8Tbps의 EFAv3 네트워킹을 제공합니다.
효율적인 분산 훈련을 위해 Trn2 인스턴스는 3.2Tbps, Trn2 UltraServer는 12.8Tbps의 EFAv3 네트워킹을 제공합니다. EFA는 AWS Nitro System을 기반으로 합니다. 따라서 EFA를 통한 모든 통신은 전송 중에 성능 저하 없이 암호화됩니다. 또한 EFA는 정교한 트래픽 라우팅 및 혼잡 제어 프로토콜을 사용하여 수십만 개의 Trainium2 칩으로 신뢰할 수 있게 확장할 수 있습니다. Trn2 인스턴스 및 UltraServer는 단일 페타비트 규모 비차단 네트워크에서 수만 개의 Trainium 칩으로 스케일 아웃 분산 훈련을 지원하기 위해 EC2 UltraCluster에 배포되고 있습니다.
Trn2 인스턴스, GPU 기반 EC2 P5e 및 P5en 인스턴스보다 30~40% 우수한 가격 대비 성능 제공
Trn2 인스턴스는 Trn1 인스턴스보다 에너지 효율이 3배 더 높습니다. 이러한 인스턴스와 기본 칩은 고급 실리콘 프로세스와 하드웨어 및 소프트웨어 최적화 기능을 사용하여 대규모로 생성형 AI 워크로드를 실행할 때 높은 에너지 효율성을 제공합니다.
AWS Neuron SDK를 사용하면 Trn2 인스턴스와 UltraServer에서 전체 성능을 활용할 수 있습니다. Neuron은 JAX, PyTorch 그리고 Hugging Face, PyTorch Lightning 등 필수 라이브러리와 기본적으로 통합됩니다. Neuron은 AI 연구자와 탐험가가 획기적인 발견을 이룰 수 있도록 설계되었습니다. 기본 PyTorch 통합을 통해 코드를 한 줄도 변경할 필요 없이 훈련하고 배포할 수 있습니다. AI 성능 엔지니어를 위해 Trainium 2에 대한 심층 액세스가 지원되므로, 성능을 미세 조정하고, 커널을 사용자 지정하고, 모델을 더욱 발전시키는 것이 가능합니다. Neuron을 활용하면 Amazon SageMaker, Amazon EKS, Amazon ECS, AWS ParallelCluster, AWS Batch뿐만 아니라 Ray(Anyscale), Domino Data Lab, Datadog 같은 서드 파티 서비스와 함께 Trn2 인스턴스를 사용할 수 있습니다. 혁신은 개방성을 기반으로 합니다. Neuron은 광범위한 AI 커뮤니티와의 오픈 소스 및 개방형 협업을 통해 혁신을 주도하기 위해 최선을 다하고 있습니다.
기능
Trn2 인스턴스는 NeuronLink로 상호 연결된 16개의 Trainium2 칩을 탑재하여 최대 20.8페타플롭의 FP8 컴퓨팅을 제공합니다. Trn2 UltraServer는 NeuronLink 연결을 4개의 Trn2 인스턴스에 걸쳐 64개의 Trainium2 칩으로 확장하여 최대 83.2페타플롭의 FP8 컴퓨팅을 제공합니다.
Trn2 인스턴스는 1.5TB의 액셀러레이터 메모리와 46TBps의 총 메모리 대역폭을 제공합니다. Trn2 UltraServer는 6TB의 공유 액셀러레이터 메모리와 185TBps의 총 메모리 대역폭을 제공하므로 초대형 파운데이션 모델을 수용할 수 있습니다.
초대형 파운데이션 모델의 스케일 아웃 분산 훈련을 지원하기 위해 Trn2 인스턴스는 3.2Tbps, Trn2 UltraServer는 12.8Tbps의 EFAv3 네트워크 대역폭을 제공합니다. EFAv3을 EC2 UltraClusters와 함께 사용할 경우 EFAv2에 비해 네트워크 지연 시간이 단축됩니다. 각 Trn2 인스턴스는 최대 8TB의 로컬 NVMe 스토리지를 지원하고, 각 Trn2 UltraServer는 최대 32TB를 지원하므로 대규모 데이터세트에 더 빠르게 액세스할 수 있습니다.
Trn2 인스턴스 및 UltraServer는 FP32, TF32, BF16, FP16, 구성 가능한 FP8(cFP8) 데이터 유형을 지원합니다. 또한 4배 희소성(16:4), 확률 반올림, 전용 집합 엔진을 비롯한 첨단 AI 최적화 기능을 지원합니다. Neuron Kernel Interface(NKI)를 사용하면 Triton과 유사한 인터페이스를 갖춘 Python 기반 환경을 사용하여 명령 세트 아키텍처(ISA)에 직접 액세스할 수 있으므로 기존 기술을 능가하는 새로운 모델 아키텍처와 고도로 최적화된 컴퓨팅 커널로 혁신할 수 있습니다.
Neuron은 Llama, Stable Diffusion과 같은 인기 모델 아키텍처를 포함하여 Trn2에서의 훈련 및 배포를 위해 Hugging Face 모델 허브에서 10만 개 이상의 모델을 지원합니다. Neuron은 JAX, PyTorch 그리고 NeMo, Hugging Face, PyTorch Lightning, Ray, Domino Data Lab, Data Dog과 같은 필수 도구, 프레임워크, 라이브러리와 기본적으로 통합됩니다. 분산 훈련 및 추론을 위해 즉시 모델을 최적화하는 동시에 프로파일링 및 디버깅에 대한 심층적인 인사이트를 제공합니다. 또한 Neuron은 Amazon SageMaker, Amazon EKS, Amazon ECS, AWS ParallelCluster, AWS Batch와 같은 서비스와 통합됩니다.
고객 및 파트너 추천사
다음은 고객과 파트너가 Amazon EC2 Trn2 인스턴스를 사용하여 비즈니스 목표를 달성하려는 계획을 보여주는 몇 가지 예입니다.
Anthropic
Anthropic에서는 수백만 명의 사람들이 매일 Claude를 사용하여 작업합니다. AWS와 관련하여 두 가지 주요 개선 사항이 있습니다. 첫 번째는 Claude 3.5 Haiku의 새로운 ‘지연 시간 최적화 모드’로, Amazon Bedrock을 통해 Trainium2에서 60% 더 빠르게 실행됩니다. 두 번째는 수백 엑사플롭을 제공하는 수십만 개의 Trainium2 칩이 포함된 새로운 클러스터인 Project Rainier로, 이전 클러스터 크기의 5배가 넘습니다. Project Rainier는 당사의 연구와 차세대 스케일링을 지원하는 데 도움이 될 것입니다. 이는 고객에게 더 많은 인텔리전스, 더 낮은 가격, 더 빠른 속도를 의미합니다. 당사는 단지 더 빠른 AI를 구축하는 것이 아니라 확장 가능하고 신뢰할 수 있는 AI를 구축하고 있습니다.
Databricks
Databricks의 Mosaic AI를 통해 조직은 고품질 에이전트 시스템을 구축하고 배포할 수 있습니다. 기본적으로 데이터 레이크하우스 위에 구축되므로 고객은 엔터프라이즈 데이터를 사용하여 모델을 쉽고 안전하게 사용자 지정하고 보다 정확한 도메인별 출력을 제공할 수 있습니다. Trainium의 고성능과 비용 효율성 덕분에 고객은 저렴한 비용으로 Mosaic AI에서 모델 훈련의 규모를 조정할 수 있습니다. Mosaic AI에 대한 수요가 전 세계 모든 고객 부문으로 계속 확장됨에 따라 Trainium2의 가용성은 Databricks와 고객에게 큰 이점이 될 것입니다. 세계 최대 데이터 및 AI 기업 중 하나로서 Databricks는 Trn2를 사용하여 고객에게 더 나은 결과를 제공하고 TCO를 최대 30% 절감할 계획입니다.
poolside
poolside에서는 AI가 경제적으로 가치 있는 작업과 과학적 진보의 대부분을 주도하는 세상을 만들고자 합니다. 우리는 소프트웨어 개발이 신경망에서 인간 수준의 지능에 도달하는 첫 번째 주요 역량이 될 것이라고 믿습니다. 검색과 학습 접근 방식을 가장 잘 결합할 수 있는 영역이기 때문입니다. 이를 위해 개발자의 손(또는 키보드)에 생성형 AI의 강력한 성능을 접목하는 파운데이션 모델, API 및 어시스턴트를 구축하고 있습니다. 이 기술을 가능하게 하는 주요 관건은 제품을 구축하고 실행하는 데 사용하는 인프라입니다. AWS Trainium2를 통해 poolside 고객은 다른 AI 액셀러레이터와는 다른 가격 대비 성능으로 사용량을 확대할 수 있을 것입니다. 또한 Trainium2 UltraServer를 사용하여 향후 모델을 훈련할 예정인데 EC2 P5 인스턴스와 비교하여 40%의 비용 절감을 기대하고 있습니다.
Itaú Unibanco
Itaú Unibanco의 목적은 돈과 사람의 관계를 개선하여 삶에 긍정적인 영향을 미치는 동시에 변화의 기회를 확대하는 것입니다. Itaú Unibanco에서는 각 고객이 특별하다고 믿으며 AI의 강력한 기능을 활용하여 소비자 습관에 지속적으로 적응하는 직관적인 디지털 여정을 통해 고객의 요구를 충족하는 데 중점을 둡니다.
당사는 표준 추론부터 애플리케이션 미세 조정에 이르기까지 다양한 작업에서 AWS Trainium 및 Inferentia를 테스트했습니다. 이러한 AI 칩의 성능 덕분에 연구 개발에서 중요한 이정표를 달성할 수 있었습니다. 배치 및 온라인 추론 작업 모두에서 GPU에 비해 처리량이 7배 향상되었습니다. 이러한 성능 향상으로 조직 전체에 사용 사례가 확장되고 있습니다. 최신 Trainium2 칩은 생성형 AI에 획기적인 기능을 제공하고 Itau에서 혁신의 문을 열고 있습니다.
NinjaTech AI
Ninja는 무한한 생산성을 위한 올인원 AI 에이전트입니다. 한 번의 구독으로 세계 최고의 AI 모델에 무제한으로 액세스하면서 작문, 코딩, 브레인스토밍, 이미지 생성, 온라인 연구와 같은 최고의 AI 기술을 이용할 수 있습니다. Ninja는 에이전트 플랫폼이며 프론티어 파운데이션 모델에 필적하는 (일부 범주에서는 능가하는) 세계적 수준의 정확도를 갖춘 에이전트 혼합을 사용하는 ‘SuperAgent’를 제공합니다. Ninja의 에이전트 기술은 고객이 기대하는 고유한 실시간 경험을 제공하기 위해 최고 성능의 액셀러레이터를 필요로 합니다.
AWS Trn2가 Lama 3.1 405B를 기반으로 하는 코어 모델인 Ninja LLM에서 현재 가능한 최고의 토큰당 비용 성능과 가장 빠른 속도를 제공할 것으로 믿기 때문에 Trn2의 출시를 매우 기쁘게 생각합니다. Trn2의 짧은 지연 시간과 경쟁력 있는 가격, 온디맨드 가용성은 놀랍습니다. Trn2의 출시가 정말 기대됩니다!
Ricoh
RICOH 기계 학습 팀은 엔터프라이즈 솔루션 전반의 정보 흐름을 관리하고 최적화하도록 설계된 업무 공간 솔루션 및 디지털 트랜스포메이션 서비스를 개발합니다.
Trn1 인스턴스로의 마이그레이션은 간단했습니다. 당사는 4,096개의 Trainium 칩으로 구성된 클러스터를 활용하여 단 8일 만에 130억 파라미터 LLM을 사전 훈련할 수 있었습니다! 소형 모델에서 성공을 거둔 후 Llama-3-Swallow-70B를 기반으로 하는 새로운 대형 LLM을 미세 조정했으며, Trainium을 활용하면서 AWS의 최신 GPU 시스템을 사용할 때보다 훈련 비용을 50% 절감하고 에너지 효율을 25% 개선할 수 있었습니다. 최신 AWS AI 칩인 Trainium2를 활용하여 고객에게 최저 비용으로 최고의 성능을 지속적으로 제공할 수 있게 되어 기쁩니다.
PyTorch
AWS Neuron NxD Inference 라이브러리에서 가장 마음에 들었던 점은 PyTorch 모델과 원활하게 통합된다는 것입니다. NxD의 접근 방식은 간단하고 사용자 친화적입니다. 우리 팀은 짧은 시간 내에 최소한의 코드 변경으로 HuggingFace PyTorch 모델을 온보딩할 수 있었습니다. 연속 배칭, 추측 디코딩과 같은 고급 기능을 활성화하는 것은 간단했습니다. 이러한 사용 편의성은 개발자 생산성을 향상시켜 팀이 통합 문제보다는 혁신에 더 집중할 수 있습니다.
Refact.ai
Refact.ai는 검색 증강 생성(RAG)으로 구동되는 코드 자동 완성과 같은 포괄적인 AI 도구를 제공하여 보다 정확한 제안을 제공하고 독점 모델과 오픈 소스 모델을 모두 사용하는 컨텍스트 인식 채팅을 제공합니다.
고객들은 EC2 G5 인스턴스에 비해 EC2 Inf2 인스턴스에서 최대 20% 더 높은 성능과 달러당 1.5배 더 높은 토큰을 경험했습니다. Refact.ai의 미세 조정 기능은 고객이 조직의 고유한 코드베이스 및 환경을 이해하고 이에 적응하는 능력을 더욱 향상시킵니다. 또한 워크플로를 더욱 신속하고 효율적으로 처리할 수 있는 Trainium2의 기능을 제공하게 되어 매우 기쁩니다. 이 고급 기술을 통해 고객은 코드베이스에 대한 엄격한 보안 표준을 유지하면서 개발자 생산성을 향상시켜 소프트웨어 개발 프로세스를 가속화할 수 있습니다.
Karakuri Inc.
KARAKURI는 웹 기반 고객 지원의 효율성을 개선하고 고객 경험을 단순화하는 AI 도구를 구축합니다. 이러한 도구에는 생성형 AI 기능이 탑재된 AI 챗봇, FAQ 중앙 집중화 도구, 이메일 응답 도구가 포함되며, 이 모든 도구는 고객 지원의 효율성과 품질을 개선합니다. AWS Trainium을 활용하여 KARAKURI LM 8x7B Chat v0.1을 훈련하는 데 성공했습니다. 우리와 같은 스타트업의 경우 LLM 구축 시간과 훈련에 필요한 비용을 최적화해야 합니다. AWS Trainium과 AWS 팀의 지원으로 짧은 기간 내에 실용적인 수준의 LLM을 개발할 수 있었습니다. 또한 AWS Inferentia를 도입하여 빠르고 비용 효율적인 추론 서비스를 구축할 수 있었습니다. Trainium2가 훈련 프로세스를 혁신하여 훈련 시간을 절반으로 단축하고 효율성을 새로운 차원으로 끌어올릴 것이기 때문에 Trainium2에 대해 열광하고 있습니다!
Stockmark Inc.
Stockmark는 ‘가치 창출의 메커니즘을 재창조하고 인류를 발전시킨다’는 사명 아래 최첨단 자연어 처리 기술을 제공함으로써 혁신적인 비즈니스를 만드는 많은 기업을 돕습니다. Stockmark의 새로운 데이터 분석 및 수집 서비스인 Anews와 조직에 저장된 모든 형태의 정보를 체계화하여 생성형 AI 사용을 획기적으로 개선하는 데이터 구조화 서비스인 SAT를 사용하려면 이러한 제품을 지원하기 위한 모델을 구축하고 배포하는 방식을 재고해야 했습니다. 당사는 256개의 Trainium 액셀러레이터를 사용하여 2,200억 개 토큰으로 구성된 일본어 코퍼스 데이터세트를 기반으로 처음부터 사전 훈련된 130억 개 파라미터의 대규모 언어 모델인 stockmark-13b를 개발, 출시했습니다. Trn1 인스턴스는 훈련 비용을 20% 절감하는 데 도움이 되었습니다. Trainium을 활용하여 전례 없는 정확성과 속도로 전문가를 위한 비즈니스 크리티컬 질문에 답변할 수 있는 LLM을 성공적으로 개발할 수 있었습니다. 기업이 모델 개발을 위한 적절한 컴퓨팅 리소스를 확보하는 데 직면하고 있는 광범위한 문제를 고려할 때 이러한 성과는 특히 주목할 만합니다. Trn1 인스턴스의 속도와 비용 절감도 놀라웠지만 Trainium2가 워크플로와 고객에게 제공할 추가적인 이점을 보게 되어 매우 기쁩니다.
시작하기
Trn2 인스턴스에 대한 SageMaker 지원이 곧 제공됩니다. 복원력이 뛰어난 컴퓨팅 클러스터, 최적화된 훈련 성능, 효율적인 기본 컴퓨팅, 네트워킹 및 메모리 리소스 활용을 제공하는 Amazon SageMaker HyperPod를 사용하여 Trn2 인스턴스에서 모델을 쉽게 훈련할 수 있습니다. 또한 SageMaker를 사용하여 Trn2 인스턴스에서 모델 배포의 규모를 조정하여 프로덕션 환경에서 모델을 보다 효율적으로 관리하고 운영 부담을 줄일 수 있습니다.
AWS Deep Learning AMI(DLAMI)는 딥 러닝(DL) 실무자 및 연구원에게 규모와 관계없이 AWS에서 DL을 가속화할 수 있는 인프라 및 도구를 제공합니다. DLAMI에는 사전 구성된 AWS Neuron 드라이버가 포함되므로 Trn2 인스턴스에서 DL 모델의 훈련을 최적화할 수 있습니다.
Trn2 인스턴스에 대한 딥 러닝 컨테이너 지원이 곧 제공됩니다. 이제 이러한 컨테이너를 사용하여 완전관리형 Kubernetes 서비스인 Amazon Elastic Kubernetes Service(Amazon EKS)와 완전관리형 컨테이너 오케스트레이션 서비스인 Amazon Elastic Container Service(Amazon ECS)에 Trn2 인스턴스를 배포할 수 있습니다. Neuron도 AWS Deep Learning Containers에 미리 설치되어 제공됩니다. Trn2 인스턴스에서 컨테이너를 실행하는 방법에 대해 자세히 알아보려면 Neuron 컨테이너 자습서를 참조하세요.
제품 세부 정보
|
Instance Size
|
Available in EC2 UltraServers
|
Trainium2 chips
|
Accelerator memory
|
vCPUs
|
Memory (TB)
|
Instance storage (TB)
|
Network bandwidth (Tbps)
|
EBS bandwidth (Gbps)
|
|---|---|---|---|---|---|---|---|---|
|
Trn2.3xlarge
|
아니요 |
1 |
96GB |
12 |
128GB |
470GB NVMe SSD 1개
|
200 |
5 |
|
trn2.48xlarge
|
아니요
|
16
|
1.5TB
|
192
|
2TB
|
4 x 1.92 NVMe SSD
|
3.2
|
80
|
|
trn2u.48xlarge
|
예 |
16
|
1.5TB
|
192
|
2TB
|
4 x 1.92 NVMe SSD
|
3.2
|
80
|