AWS Neuron 2.24, 새로운 기능으로 PyTorch 2.7 지원 및 추론 개선

게시된 날짜: 2025년 7월 2일


오늘 AWS는 Neuron 2.24의 정식 버전을 발표했습니다. 이 버전은 AWS Inferentia 및 Trainium 기반 인스턴스에서 딥 러닝 모델을 구축 및 배포하는 고객을 위해 새로운 기능과 성능 향상을 제공합니다. Neuron 2.24는 PyTorch 2.7 지원, 향상된 추론 기능, 주요 기계 학습 프레임워크와의 호환성 확대를 제공합니다. 이번 업데이트는 개발자와 데이터 과학자가 모델 훈련 및 추론의 속도를 높이고, 효율성을 개선하며, 대규모 언어 모델 및 기타 AI 워크로드의 배포를 간소화하는 데 도움이 됩니다.

Neuron 2.24를 사용하면 고객은 TTFT(Time-To-First-Token)를 단축하는 접두사 캐싱, 프리필-디코드 간 간섭을 줄이는 분리 추론, 긴 시퀀스에서의 성능을 향상시키는 컨텍스트 병렬 처리와 같은 고급 추론 기능을 활용할 수 있습니다. 아울러 이번 릴리스에는 Qwen 2.5 텍스트 모델 지원과 Hugging Face Optimum Neuron 및 PyTorch 기반 NxD Core 백엔드와의 통합 개선도 포함됩니다.

Neuron 2.24는 Inferentia 및 Trainium 인스턴스가 제공되는 모든 AWS 리전에서 사용할 수 있습니다.

자세한 내용을 알아보고 새로운 기능 및 개선 사항의 전체 목록을 확인하려면 다음을 참조하세요.