게시된 날짜: Apr 18, 2024

오늘 AWS는 PyTorch 2.1에 대한 안정적인 지원(베타 종료)을 도입하고, vLLM을 지원을 통한 연속 배치 처리를 추가하고, Transformers NeuronX 라이브러리의 Llama-2-70B 샘플을 통한 추측 디코딩 지원을 추가하는 Neuron 2.18 릴리스를 발표했습니다.

AWS Neuron은 생성형 AI용으로 특별히 구축된 Amazon EC2 Inferentia 및 Trainium 기반 인스턴스용 SDK입니다. Neuron은 PyTorch 및 TensorFlow와 같은 인기 있는 ML 프레임워크와 통합됩니다. 여기에는 Trn1 인스턴스 및 Inf2 인스턴스에서 생성형 AI 모델의 고성능 훈련 및 추론을 지원하는 컴파일러, 런타임, 도구, 라이브러리가 포함되어 있습니다.

이번 릴리스에는 LLM 훈련 및 추론을 위한 새로운 기능과 성능 개선 사항이 추가되었으며, Neuron DLAMI와 Neuron DLC도 업데이트되었습니다. 훈련의 경우, NeuronX Distributed는 비동기식 체크포인팅 지원, 자동 파티셔닝 파이프라인 병렬 처리를 추가하고 PyTorch Lightning Trainer(베타)에 파이프라인 병렬 처리를 도입했습니다. 추론의 경우, Transformers NeuronX는 SafeTensor 체크포인트 형식에 대한 지원을 추가하여 가중치 로딩 성능을 개선하고 Mixtral-8x7B-v0.1 및 mistralai/Mistral-7B-Instruct-v0.2에 대한 새로운 샘플을 추가합니다. NeuronX Distributed와 PyTorch NeuronX는 자동 버킷팅에 대한 지원을 추가합니다.

AWS Neuron SDK를 사용하여 Trn1 및 Inf2 인스턴스에서 모델을 훈련 및 배포할 수 있으며, AWS 리전에서 온디맨드 인스턴스, 예약형 인스턴스 및 스팟 인스턴스 또는 절감형 플랜의 일부로 제공됩니다.

Neuron 2.18의 새로운 기능 및 개선 사항의 전체 목록은 Neuron 릴리스 노트에서 확인하세요. Neuron을 시작하려면 다음을 참조하세요.
AWS Neuron
Inf2 인스턴스
Trn1 인스턴스