AWS Neuron, 고성능 및 대규모 시퀀스 길이를 지원하는 Flash Attention 커널 도입
AWS는 오늘 Flash Attention 커널에 대한 지원을 도입하여 대규모 시퀀스 길이로 고성능 LLM 모델 훈련 및 추론을 가능하게 하는 Neuron 2.19의 출시를 발표했습니다.
AWS Neuron은 생성형 AI용으로 특별히 구축된 AWS Inferentia 및 Trainium 기반 인스턴스용 SDK입니다. Neuron은 PyTorch 같은 인기 있는 ML 프레임워크와 통합됩니다. 여기에는 Trn1 및 Inf2 인스턴스에서 AI 모델의 고성능 훈련 및 추론을 지원하는 컴파일러, 런타임, 도구, 라이브러리가 포함되어 있습니다.
이번 릴리스에는 훈련 및 추론을 위한 새로운 기능과 성능 개선 사항과 새로운 PyTorch 2.1 및 PyTorch 1.13용 Ubuntu 22 Neuron DLAMI가 추가되었습니다. Neuron 2.19는 대규모 시퀀스 길이(8K 이상)에 대한 훈련을 가능하게 하는 Flash Attention 커널, Llama3 모델 훈련, 인터리브 파이프라인 병렬 처리에 대한 지원이 추가되어 훈련 효율성과 리소스 활용도가 개선되었습니다. 추론을 위해 이번 릴리스에는 최대 32k의 컨텍스트 길이에 대해 LLM 추론을 지원하는 Flash Attention 커널 지원이 추가되었습니다. Neuron 2.19는 Llama3 모델 추론에 대한 지원을 추가하고 Mistral-7B-v0.2 모델로 연속 배치 처리에 대한 베타 지원을 추가합니다. Neuron 2.19는 EKS의 Neuron 노드 문제 감지기 및 복구 플러그인과 EKS용 Neuron 모니터라는 새로운 도구를 도입하여 Kubernetes에서 향상된 Neuron 지표 모니터링을 가능하게 합니다.
AWS Neuron SDK를 사용하여 Trn1 및 Inf2 인스턴스에서 모델을 훈련 및 배포할 수 있으며, AWS 리전에서 온디맨드 인스턴스, 예약형 인스턴스 및 스팟 인스턴스 또는 절감형 플랜의 일부로 제공됩니다.
Neuron 2.19의 기능 목록은 Neuron 릴리스 노트를 참조하세요. Neuron을 시작하려면 다음을 참조하세요.
AWS Neuron
Inf2 인스턴스
Trn1 인스턴스