AWS Neuron apresenta o kernel Flash Attention, permitindo alta performance e grandes comprimentos de sequência

Publicado: 11 de jul de 2024

Hoje, a AWS anuncia o lançamento do Neuron 2.19, introduzindo suporte ao kernel Flash Attention para permitir treinamento e inferência de modelos de LLM de alta performance com grandes comprimentos de sequência.

O AWS Neuron é o SDK criado especificamente para IA generativa em instâncias baseadas no AWS Inferentia e no Trainium. O Neuron se integra a estruturas de machine learning populares, como PyTorch. Ele inclui compilador, runtime, ferramentas e bibliotecas para oferecer suporte ao treinamento e inferência de alta performance de modelos de IA nas instâncias Trn1 e Inf2.

Essa versão adiciona novos recursos e melhorias de performance para treinamento e inferência, bem como as novas DLAMIs Neuron do Ubuntu 22 para PyTorch 2.1 e PyTorch 1.13. O Neuron 2.19 adiciona suporte ao kernel Flash Attention para permitir o treinamento de grandes comprimentos de sequência (maiores ou iguais a 8K), o treinamento de modelos do Llama3 e o paralelismo de pipeline intercalado para melhorar a eficiência do e a utilização de recursos do treinamento. Para inferência, essa versão adiciona suporte ao kernel Flash Attention para permitir a inferência de LLMs para comprimentos de contexto de até 32k. Além disso, o Neuron 2.19 adiciona suporte para inferência do modelo do Llama3 e adiciona suporte beta a lotes contínuos com os modelos Mistral-7B-v0.2. O Neuron 2.19 apresenta novas ferramentas: o plug-in Neuron Node Problem Detector and Recovery no EKS e o Neuron Monitor para EKS para permitir o monitoramento aprimorado de métricas do Neuron no Kubernetes.

Você pode usar o AWS Neuron SDK para treinar e implantar modelos em instâncias Trn1 e Inf2, disponíveis nas regiões da AWS como instâncias sob demanda, instâncias reservadas, instâncias spot ou como parte do Savings Plan.

Para obter uma lista de recursos do Neuron 2.19, acesse as notas de versão do Neuron. Para começar a usar o Neuron, consulte:
AWS Neuron
Instâncias Inf2
Instâncias Trn1

AWS Neuron apresenta o kernel Flash Attention, permitindo alta performance e grandes comprimentos de sequência

Aprenda

Recursos

Desenvolvedores

Ajuda