AWS Neuron presenta la decodificación especulativa y la compatibilidad con vLLM

Publicado en: Apr 18, 2024

Hoy, AWS anuncia el lanzamiento de Neuron 2.18, que introduce compatibilidad estable (fuera de la versión beta) para PyTorch 2.1, agrega el procesamiento por lotes continuo que es compatible con modelos virtuales de lenguaje de gran tamaño (vLLM) y suma compatibilidad con la decodificación especulativa con el ejemplo Llama-2-70B en la biblioteca Transformers NeuronX.

AWS Neuron es el SDK para instancias basadas en Inferentia y Trainium de Amazon EC2, diseñado específicamente para la IA generativa. Neuron se integra con marcos de machine learning populares, como PyTorch y TensorFlow. Incluye un compilador, una versión ejecutable, herramientas y bibliotecas para admitir el entrenamiento de alto rendimiento y la inferencia de modelos de IA generativa en instancias Trn1 e Inf2.

Esta versión también agrega nuevas características y mejoras de rendimiento tanto para el entrenamiento como para la inferencia de modelos de lenguaje de gran tamaño (LLM), y actualiza las AMI de deep learning (DLAMI) y los contenedores de deep learning (DLC) de Neuron. Para el entrenamiento, NeuronX Distributed agrega compatibilidad con los puntos de control asincrónicos, el paralelismo de canalizaciones con particionamiento automático e introduce el paralelismo de canalizaciones en PyTorch Lightning Trainer (Beta). Para la inferencia, Transformers NeuronX mejora el rendimiento de carga de ponderaciones al agregar compatibilidad con el formato de punto de control SafeTensor y agrega nuevos ejemplos para Mixtral-8x7B-V0.1 y MistralAI/Mistral-7B-Instruct-v0.2. NeuronX Distributed y PyTorch NeuronX agregan compatibilidad con la segmentación automática en buckets.

Puede usar el SDK de AWS Neuron para entrenar e implementar modelos en instancias Trn1 e Inf2, disponibles en las regiones de AWS como instancias bajo demanda, instancias reservadas, instancias de spot o como parte de Savings Plan.

Para obtener una lista completa de las nuevas características y mejoras de Neuron 2.18, visite las notas de la versión de Neuron. Para empezar a usar Neuron, consulte:
AWS Neuron
Instancias Inf2
Instancias Trn1

AWS Neuron presenta la decodificación especulativa y la compatibilidad con vLLM

Finalización de la compatibilidad con Internet Explorer