더 빠르고 저렴한 생성형 AI 교육을 위한 Amazon EC2 Trn3 UltraServers 발표
AWS는 차세대 에이전틱, 추론(reasoning) 및 비디오 생성 애플리케이션을 위한 최적의 토큰 이코노미를 제공하기 위해 특별히 설계된 최초의 3nm AWS AI 칩인 4세대 AI 칩, Trainium3으로 구동되는 Amazon Elastic Compute Cloud(Amazon EC2) Trn3 UltraServers의 정식 출시를 발표했습니다.
각 AWS Trainium3 칩은 2.52 페타플롭(PFLOP)의 FP8 컴퓨팅을 제공하고, Trainium2에 비해 메모리 용량을 1.5배, 대역폭을 1.7배 증가시켜 144GB의 HBM3e 메모리와 4.9TB/s의 메모리 대역폭을 제공합니다. Trainium3은 고급 데이터 유형(MXFP8 및 MXFP4)과 실시간, 멀티모달 및 추론(reasoning) 태스크를 위한 개선된 메모리-컴퓨팅 균형을 갖춘 고밀도 및 전문가 병렬 워크로드를 위해 설계되었습니다.
Trn3 UltraServers는 최대 144개의 Trainium3 칩(총 362개의 FP8 PFLOP)으로 스케일 업할 수 있으며, EC2 UltraClusters 3.0에서 사용할 수 있어 수십만 개의 칩으로 규모를 조정할 수 있습니다. 완전히 구성된 Trn3 UltraServer는 최대 20.7TB의 HBM3e와 706TB/s의 총 메모리 대역폭을 제공합니다. 차세대 Trn3 UltraServer에는 Trn2 UltraServer보다 칩 간 인터커넥트 대역폭을 두 배로 늘리는 올인원 패브릭인 NeuronSwitch-v1이 탑재되어 있습니다.
Trn3은 Trn2 UltraServer에 비해 최대 4.4배 더 높은 성능, 3.9배 더 높은 메모리 대역폭 및 4배 더 높은 와트당 성능을 제공하므로 강화 학습, Mixture-of-Experts(MoE), 추론(reasoning) 및 장기 컨텍스트 아키텍처를 포함한 프론티어 규모 모델의 교육 및 서비스에 가장 적합한 가격 대비 성능을 제공합니다. Amazon Bedrock에서 Trainium3은 가장 빠른 가속기로, 사용자당 비슷한 지연 시간으로 메가와트당 5배 이상 높은 출력 토큰을 사용하여 Trainium2보다 최대 3배 빠른 성능을 제공합니다.
새로운 Trn3 UltraServer는 AI 연구원을 위해 구축되었으며 AWS Neuron SDK를 기반으로 획기적인 성능을 제공합니다. 기본 PyTorch 통합을 통해 개발자는 모델 코드를 전혀 변경하지 않고도 학습하고 배포할 수 있습니다. AI 성능 엔지니어는 Trainium3에 대한 심층 액세스를 지원하여 성능을 미세 조정하고, 커널을 사용자 지정하고, 모델을 더욱 발전시킬 수 있습니다. 혁신은 개방성을 기반으로 하기 때문에 당사는 오픈 소스 도구와 리소스를 통해 개발자와 소통하기 위해 최선을 다하고 있습니다.