Las nuevas características de AWS Neuron 2.24 incluyen PyTorch 2.7 y mejoras en la inferencia

Publicado en: 2 de jul de 2025


Hoy, AWS anuncia la disponibilidad general de Neuron 2.24, que ofrece nuevas características y mejoras de rendimiento para los clientes que crean e implementan modelos de aprendizaje profundo en instancias basadas en AWS Inferentia y Trainium. Neuron 2.24 presenta soporte para PyTorch 2.7, capacidades de inferencia mejoradas y compatibilidad ampliada con los marcos de machine learning más populares. Estas actualizaciones ayudan a los desarrolladores y científicos de datos a acelerar el entrenamiento y la inferencia de modelos, mejorar la eficiencia y simplificar la implementación de modelos de lenguaje de gran tamaño y otras cargas de trabajo de IA.

Con Neuron 2.24, los clientes pueden aprovechar las características de inferencia avanzadas, como el almacenamiento en caché de prefijos para obtener el un tiempo hasta el primer token (TTFT) más rápido, la inferencia desagregada para reducir la interferencia de decodificación previa al llenado y el paralelismo de contexto para mejorar el rendimiento en secuencias largas. La versión también ofrece compatibiliada para los modelos de texto Qwen 2.5 y una integración mejorada con Hugging Face Optimum Neuron y el backend NxD Core basado en PyTorch.

Neuron 2.24 está disponible en todas las regiones de AWS en las que se ofrecen instancias de Inferentia y Trainium.

Para obtener más información y una lista completa de las nuevas funciones y mejoras, consulte: