게시된 날짜: Oct 10, 2022
AWS에서 Amazon Elastic Compute Cloud(Amazon EC2) Trn1 인스턴스의 정식 출시를 발표했습니다. Amazon EC2 Trn1 인스턴스는 AWS Trainium 칩을 통해 제공됩니다. Trainium 칩은 클라우드의 고성능 ML 훈련 애플리케이션용으로 제작된 목적별 칩입니다. Trn1 인스턴스는 AWS에서 널리 사용되는 자연어 처리(NLP) 모델의 딥 러닝(DL) 훈련을 진행할 때 최고 수준의 성능을 제공합니다. 또한 Trn1 인스턴스 사용 시에는 동급 GPU 기반 EC2 인스턴스에 비해 비용도 50%까지 절약할 수 있습니다. PyTorch, TensorFlow 등의 널리 사용되고 있는 ML 프레임워크를 통해 Trn1 인스턴스 사용을 시작할 수 있습니다. 그러므로 훈련 비용과 시간을 줄이고 훈련을 더욱 빠르게 반복하여 더욱 획기적인 모델을 구축할 수 있을 뿐 아니라 생산성도 높일 수 있습니다. EC2 Trn1 인스턴스를 사용하면 음성 인식, 추천, 사기 탐지, 이미지와 비디오 분류, 예측 등의 광범위한 응용 분야에서 자연어 처리(NLP), 컴퓨터 비전 및 추천자 모델을 훈련시킬 수 있습니다.
Trn1 인스턴스에서는 AWS Trainium 칩이 16개까지 제공됩니다. AWS Tranium 칩은 AWS가 AWS Inferentia 이후 제작한 2세대 ML 칩입니다. Trn1 인스턴스는 최대 800Gbps의 Elastic Fabric Adapter(EFA) 네트워크 대역폭을 지원하는 최초의 EC2 인스턴스입니다. 각 Trn1 인스턴스는 효율적인 데이터 및 모델 병렬 처리를 위해 512GB의 고대역 메모리, 최대 4.5페타플롭의 FP16/BF16 컴퓨팅 성능, 그리고 인스턴스 내 고대역 비차단 인터커넥트 기능인 NeuronLink를 제공합니다. 그리고 대규모 딥 러닝 모델 지원을 위해 Trn1 인스턴스는 EC1 UltraCluster에 배포됩니다. UltraCluster를 사용하면 Tranium 액셀러레이터를 3만 개까지 포함하도록 인스턴스 크기를 조정할 수 있습니다. 이러한 액셀러레이터는 페타비트급 비차단 네트워크와 상호 연결되며, 컴퓨팅 성능이 6.3엑사플롭인 슈퍼컴퓨터에 온디맨드 방식으로 액세스합니다. Trn1 인스턴스는 광범위한 데이터 유형을 기본적으로 지원합니다. 지원되는 데이터 유형으로는 새롭게 제공되는 구성 가능한 FP8, 동적 입력 셰이프, 제어 흐름, C++ 사용자 지정 연산자, 확률 반올림 등이 있습니다. 이러한 고급 기능을 제공하는 AWS Neuron SDK는 JIT(Just-in-time) 컴파일과 Eager Debug 모드도 추가로 지원합니다. AWS Neuron은 PyTorch, TensorFlow, Megatron-LM, Hugging Face, PyTorch FSDP 등의 유명 ML 프레임워크 및 라이브러리와 통합되므로 기존 프레임워크를 계속 사용할 수 있으며 최소한의 코드만 변경하여 애플리케이션을 실행할 수 있습니다.
개발자는 AWS Deep Learning AMI, AWS Deep Learning Containers 또는 Amazon Elastic Container Service(Amazon ECS)와 AWS ParallelCluster 등의 관리형 서비스를 사용하여 Trn1 인스턴스에서 DL 훈련 워크로드를 실행할 수 있습니다. Amazon Elastic Kubernetes Service(Amazon EKS), Amazon SageMaker, AWS Batch도 조만간 지원될 예정입니다.
Amazon EC2 Trn1 인스턴스는 두 가지 크기로 제공됩니다. 그 중 하나는 액셀러레이터 하나로 실험을 진행하고 소형 모델을 비용 효율적으로 훈련시킬 수 있는 trn1.2xlarge이고, 다른 하나는 대규모 모델을 훈련시킬 수 있는 trn1.32xlarge입니다. 이러한 인스턴스는 미국 동부(버지니아 북부) 및 미국 서부(오레곤) AWS 리전에서 온디맨드 인스턴스, 예약 인스턴스 및 스팟 인스턴스로 사용하거나 절감형 플랜의 일환으로 사용 가능합니다.
Trn1 인스턴스에 대해 자세히 알아보려면 Amazon EC2 Trn1 인스턴스를 참조하세요.