AWS Neuron presenta el kernel de atención rápida (Flash Attention) que permite un alto rendimiento y grandes longitudes de secuencia

Publicado en: 11 de jul de 2024

Hoy, AWS anuncia el lanzamiento de Neuron 2.19, que incorpora compatibilidad con el kernel de atención rápida (flash attention kernel) para permitir el entrenamiento y la inferencia de modelos de lenguaje de gran tamaño (LLM) de alto rendimiento con secuencias de gran longitud.

AWS Neuron es el SDK para instancias basadas en AWS Inferentia y Trainium, diseñado específicamente para la IA generativa. Neuron se integra con marcos de machine learning conocidos, como PyTorch. Incluye un compilador, una versión ejecutable, herramientas y bibliotecas para admitir el entrenamiento de alto rendimiento y la inferencia de modelos de IA en instancias Trn1 e Inf2.

Esta versión agrega nuevas características y mejoras de rendimiento tanto para el entrenamiento como para la inferencia, y nuevos DLAMI de Neuron de Ubuntu 22 para PyTorch 2.1 y PyTorch 1.13. Neuron 2.19 agrega compatibilidad con el kernel de atención rápida para permitir el entrenamiento para secuencias de gran longitud (superiores o iguales a 8K), el entrenamiento con modelos Llama3 y el paralelismo de canalizaciones intercaladas para mejorar la eficiencia del entrenamiento y la utilización de los recursos. Para la inferencia, esta versión agrega compatibilidad con el kernel de atención rápida a fin de permitir la inferencia de LLM para longitudes de contexto de hasta 32k. Además, Neuron 2.19 agrega compatibilidad con la inferencia del modelo Llama3 y agrega soporte beta para el procesamiento continuo por lotes con modelos Mistral-7B-v0.2. Neuron 2.19 presenta nuevas herramientas: el complemento Neuron Node Problem Detector y Recovery en EKS y Neuron Monitor para EKS, a fin de permitir un monitoreo mejorado de las métricas neuronales en Kubernetes.

Puede usar el SDK de AWS Neuron para entrenar e implementar modelos en instancias Trn1 e Inf2, disponibles en las regiones de AWS como instancias bajo demanda, instancias reservadas, instancias de spot o como parte de Savings Plan.

Para obtener una lista de las características de Neuron 2.19, consulte las notas de la versión de Neuron. Para empezar a usar Neuron, consulte:
AWS Neuron
Instancias Inf2
Instancias Trn1

AWS Neuron presenta el kernel de atención rápida (Flash Attention) que permite un alto rendimiento y grandes longitudes de secuencia

Aprender

Recursos

Desarrolladores

Ayuda