게시된 날짜: Oct 10, 2022

이제 AWS Neuron이 비용 효율적인 고성능 딥 러닝 훈련을 대규모로 수행할 수 있도록 AWS Trainium 제공 Amazon EC2 Trn1 인스턴스를 추가로 지원합니다. Neuron SDK에 포함되어 있는 컴파일러, 런타임 라이브러리 및 프로파일링 도구는 PyTorch, Tensorflow 등의 널리 사용되는 ML 프레임워크와 통합할 수 있습니다. 이제 개발자는 Neuron 2.x의 이번 첫 릴리스를 사용해 Trn1 인스턴스에서 딥 러닝 훈련 워크로드를 실행할 수 있습니다. 그러면 동급 GPU 기반 EC2 인스턴스에 비해 훈련 비용을 50%까지 절약하는 동시에, AWS 클라우드에서 널리 사용되는 NLP 모델의 훈련 성능을 최대한 높일 수 있습니다. 

이제 Neuron에서 딥 러닝 모델 훈련이 추가로 지원됩니다. 우선 언어 모델 훈련부터 지원되며, Neuron 로드맵에 요약되어 있듯이 비전 모델을 비롯한 추가 모델 패밀리의 훈련도 조만간 지원될 예정입니다. 이번 Neuron 릴리스에서는 언어 모델의 transformers 인코더/자동 인코더 및 transformers 디코더/자동 회귀 모델 아키텍처(예: GPT)가 지원됩니다. 신속한 개발자 워크플로 진행을 지원하고 훈련 워크로드와 관련하여 더욱 정확한 인사이트를 제공하기 위해 이제 Neuron에서는 원활한 JIT(Just-in-time) 컴파일, Eager Debug 모드를 통한 단계별 실행, 그리고 성능 및 사용률 관련 인사이트를 제공하는 도구가 지원됩니다.

그리고 개발자가 획기적인 Trainium 칩을 통해 성능 및 비용 관련 이점을 최대한 활용할 수 있도록 다양한 하드웨어 최적화도 지원됩니다. 이제 Neuron에서는 FP32, TF32, FP16, BF16 데이터 유형이 지원되며 FP32에서 TF32, BF16, FP16으로의 자동 캐스팅도 지원됩니다. 뿐만 아니라 하드웨어 가속 확률 반올림도 추가로 지원되므로 FP32에서 BF16으로 자동 캐스팅을 진행할 때 BF16 속도와 FP32 정확도 범위로 모델을 훈련시킬 수 있습니다.

또한 Trn1 UltraCluster의 여러 액셀러레이터에서 대규모 모델의 분산 훈련을 지원하기 위해 Neuron은 다양한 집단 컴퓨팅 작업과 800Gbps EFA 네트워킹도 추가로 지원합니다. 800Gbps는 현재 AWS 클라우드에서 제공되는 최고 수준의 네트워크 대역폭에 해당됩니다. 그리고 Neuron에서는 퍼블릭 gitHub 리포지토리의 Megatron-LM과 같은 분산 훈련 라이브러리도 지원됩니다.

개발자는 AWS Deep Learning AMI, AWS Deep Learning Containers 또는 Amazon Elastic Container Service(Amazon ECS)와 AWS ParallelCluster 등의 관리형 서비스를 사용하여 Trn1 인스턴스에서 DL 훈련 워크로드를 실행할 수 있습니다. Amazon Elastic Kubernetes Service(Amazon EKS), Amazon SageMaker, AWS Batch도 조만간 지원될 예정입니다. 개발자가 훈련을 쉽게 시작할 수 있도록 이번 릴리스에서는 HuggingFace BERT-large 사전 훈련 및 미세 조정, 그리고 Megatron-LM GPT3(6.7B) 모델 사전 훈련을 위한 예제가 제공됩니다.

Trn1 인스턴스는 미국 동부(버지니아 북부) 및 미국 서부(오레곤) AWS 리전에서 온디맨드 인스턴스, 예약 인스턴스 및 스팟 인스턴스로 사용하거나 절감형 플랜의 일환으로 사용 가능합니다. Trn1 인스턴스 사용을 시작하려면 Neuron 설명서를 참조하세요. 이번 릴리스에 포함된 기능, 향상 기능 및 변경 사항의 전체 목록은 릴리스 정보를 참조하세요. 향후 제공 예정인 기능 관련 인사이트를 확인하려면 Neuron 로드맵을 참조하세요.