AWS Neuron presenta la compatibilidad con Trainium2 y NxD Inference

Publicado en: 23 de dic de 2024

Hoy, AWS anuncia el lanzamiento de Neuron 2.21, que introduce compatibilidad con los chips de AWS Trainium2 y las instancias Trn2 de Amazon EC2, incluidos el tipo de instancia trn2.48xlarge y Trn2 UltraServer. Esta versión también agrega compatibilidad con PyTorch 2.5 e introduce NxD Inference y Neuron Profiler 2.0 (beta). NxD Inference, una nueva biblioteca basada en PyTorch integrada con vLLM, simplifica la implementación de modelos multimodales y lingüísticos grandes y permite incorporar el modelo PyTorch con cambios mínimos en el código. Neuron Profiler 2.0 (beta) es un nuevo generador de perfiles que mejora las capacidades y la usabilidad, incluida la compatibilidad con cargas de trabajo distribuidas.

Neuron 2.21 también presenta la compatibilidad con la inferencia del modelo Llama 3.1 405B mediante NxD Inference en una sola instancia de trn2.48xlarge. La versión actualiza los contenedores de aprendizaje profundo (DLC) y las AMI de aprendizaje profundo (DLAMI) y agrega compatibilidad con varias arquitecturas de modelos, incluidos los modelos Llama 3.2, Llama 3.3 y MoE (Mixture-of-Experts). Las nuevas características de inferencia incluyen la cuantificación del peso del FP8 y la decodificación flash para la decodificación especulativa en Transformers NeuronX (TNx). Además, se han agregado nuevos ejemplos y características de entrenamiento, como la compatibilidad con HuggingFace Llama 3/3.1 70B en instancias Trn2 y la compatibilidad con DPO para la alineación de modelos después del entrenamiento.

El SDK de AWS Neuron admite el entrenamiento y la implementación de modelos en instancias Trn1, Trn2 e Inf2, disponibles en las regiones de AWS como instancias bajo demanda, instancias reservadas, instancias de spot o como parte de un Savings Plan.

Para obtener una lista completa de las nuevas características y mejoras de Neuron 2.21 y empezar a utilizar Neuron, consulte: