AWS Neuron apresenta a decodificação especulativa e o suporte a vLLM

Publicado: Apr 18, 2024

Hoje, a AWS anuncia o lançamento do Neuron 2.18, introduzindo suporte estável (fora da versão beta) para o PyTorch 2.1, adicionando lotes contínuos com suporte a vLLM e adicionando suporte para decodificação especulativa com a amostra Llama-2-70B na biblioteca do Transformers NeuronX.

O AWS Neuron é o SDK criado especificamente para IA generativa em instâncias do Amazon EC2 baseadas em Inferentia e Trainium. O Neuron se integra a estruturas de machine learning populares, como PyTorch e TensorFlow. Ele inclui compilador, runtime, ferramentas e bibliotecas para oferecer suporte ao treinamento e inferência de alta performance de modelos de IA generativa em instâncias Trn1 e Inf2.

Esta versão também adiciona novos atributos e melhorias de performance para treinamento e inferência de LLM e atualiza as Neuron DLAMIs e os Neuron DLCs. Para treinamento, o NeuroNX Distributed adiciona suporte a pontos de verificação assíncronos, paralelismo de pipeline de particionamento automático e introduz o paralelismo de pipeline no PyTorch Lightning Trainer (Beta). Para inferência, o Transformers NeuronX melhora a performance de carregamento de peso adicionando suporte ao formato de ponto de verificação do SafeTensor e adiciona novas amostras para Mixtral-8x7B-v0.1 e mistralai/Mistral-7b-Instruct-v0.2. O NeuroNX Distributed e o PyTorch NeuroNX adicionam suporte para agrupamento automático em buckets.

Você pode usar o AWS Neuron SDK para treinar e implantar modelos em instâncias Trn1 e Inf2, disponíveis nas regiões da AWS como instâncias sob demanda, instâncias reservadas, instâncias spot ou como parte do Savings Plan.

Para obter uma lista completa dos novos atributos e aprimoramentos do Neuron 2.18, acesse as notas de versão do Neuron. Para começar a usar o Neuron, consulte:
AWS Neuron
Instâncias Inf2
Instâncias Trn1

AWS Neuron apresenta a decodificação especulativa e o suporte a vLLM

Encerramento do suporte para o Internet Explorer