Trainium2 및 NxD Inference 지원이 추가된 AWS Neuron
Neuron 2.21 릴리스가 오늘 발표되었습니다. 해당 릴리스에서는 AWS Trainium2 칩과 Amazon EC2 Trn2 인스턴스(trn2.48xlarge 인스턴스 유형 및 Trn2 UltraServer 포함)가 새롭게 지원됩니다. 또한 이번 릴리스에서는 PyTorch 2.5도 추가로 지원되며, NxD Inference 및 Neuron Profiler 2.0(베타)도 새롭게 지원됩니다. vLLM과 통합된 신규 PyTorch 기반 라이브러리인 nXD Inference를 사용하면 대규모 언어 및 다중 양식 모델을 간편하게 배포할 수 있으며 코드를 최소한으로만 변경하여 PyTorch 모델을 온보딩할 수 있습니다. 그리고 새로운 프로파일러인 Neuron Profiler 2.0(베타)을 사용하면 모델의 기능성과 사용성을 개선할 수 있으며 분산 워크로드도 지원할 수 있습니다.
Neuron 2.21에서는 단일 trn2.48xlarge 인스턴스에서 NxD Inference를 사용하는 Llama 3.1 405B 모델 추론도 새롭게 지원됩니다. 이번 릴리스에서는 딥 러닝 컨테이너(DLC) 및 딥 러닝 AMI(DLAMI)가 업데이트되었습니다. 그리고 Llama 3.2, Llama 3.3, Mixture-of-Experts(MoE) 모델을 비롯한 여러 모델 아키텍처도 추가로 지원됩니다. 새로운 추론 기능으로는 트랜스포머 NeuronX(TNx) 의 추측 인코딩을 위한 FP8 가중치 양자화 및 플래시 디코딩 등이 있습니다. 그리고 새로운 훈련 예제와 특성도 추가되었습니다. 예를 들어 Trn2 인스턴스에서 HuggingFace Llama 3/3.1 70B가 지원되며, 훈련 후 모델 조정에서는 DPO가 지원됩니다.
AWS Neuron SDK는 Trn1/Trn2/Inf2 인스턴스의 모델 훈련 및 배포를 지원합니다. 이러한 인스턴스는 AWS 리전에서 온디맨드 인스턴스, 예약형 인스턴스 및 스팟 인스턴스 또는 절감형 플랜의 일부로 제공됩니다.
Neuron 2.21에서 제공되는 새로운 기능과 개선 사항의 전체 목록을 확인하고 Neuron 사용을 시작하려면 다음 항목을 참조하세요.