Amazon EC2 UltraServer를 사용해야 하는 이유는 무엇인가요?
Amazon Elastic Compute Cloud(Amazon EC2) UltraServer는 조 단위 파라미터 규모의 모델에서 최고의 AI 훈련 및 추론 성능을 원하는 고객에게 적합합니다. UltraServer는 지연 시간이 짧은 고대역폭 전용 액셀러레이터 상호 연결을 사용하여 여러 EC2 인스턴스를 연결하므로 EC2 인스턴스 전체에서 긴밀하게 연결된 액셀러레이터 메시를 활용하고 독립 실행형 EC2 인스턴스보다 훨씬 많은 컴퓨팅 및 메모리에 액세스할 수 있습니다.
EC2 UltraServer는 독립 실행형 EC2 인스턴스보다 많은 메모리 및 메모리 대역폭이 필요한 최대 규모의 모델에 적합합니다. UltraServer 설계는 인스턴스 내 가속기 연결을 사용하여 여러 인스턴스를 하나의 노드에 연결하여 새로운 처리 능력을 제공합니다. 추론의 경우, UltraServer는 업계 최고의 응답 시간을 제공하여 최상의 실시간 경험을 제공합니다. 훈련의 경우, UltraServer는 모델 병렬 처리를 위한 더 빠른 집단 통신을 통해 독립 실행형 인스턴스와 비교해 모델 훈련 속도와 효율성을 향상시킵니다. EC2 UltraServer는 EFA 네트워킹을 지원하며, EC2 UltraCluster에 배포하면 단일 페타바이트 규모의 비차단 네트워크에서 수만 개의 액셀러레이터에 걸쳐 스케일 아웃 분산 훈련을 수행할 수 있습니다. UltraServer는 훈련 및 추론 모두에 더 높은 성능을 제공하므로 출시 기간을 단축하고 가장 성능이 뛰어난 차세대 파운데이션 모델을 기반으로 하는 실시간 애플리케이션을 제공할 수 있습니다.
이점
기능
지원되는 인스턴스
Trn2 인스턴스
AWS Trainium2 칩으로 구동되는 Trn2 UltraServer 구성(평가판으로 제공)의 Trn2 인스턴스를 사용하면 고대역폭, 저지연의 AWS AI 칩 전용 상호 연결인 NeuronLink로 연결된 최대 64개의 Trainium2 칩까지 스케일 업할 수 있습니다. Trn2 UltraServer는 Amazon EC2에서 생성형 AI 훈련 및 추론을 위한 혁신적인 성능을 제공합니다.