Novos atributos do AWS Neuron 2.24 incluem o PyTorch 2.7 e os aprimoramentos de inferência
Hoje, a AWS anuncia a disponibilidade geral do Neuron 2.24, oferecendo novos atributos e melhorias de performance para clientes que criam e implantam modelos de aprendizado profundo em instâncias baseadas em AWS Inferentia e Trainium. O Neuron 2.24 apresenta suporte para PyTorch 2.7, recursos aprimorados de inferência e compatibilidade expandida com estruturas populares de machine learning. Essas atualizações ajudam desenvolvedores e cientistas de dados a acelerar o treinamento e a inferência de modelos, melhorar a eficiência e simplificar a implantação de grandes modelos de linguagem e outras workloads de IA.
Com o Neuron 2.24, os clientes podem aproveitar os atributos avançados de inferência, como armazenamento em cache de prefixo para acelerar o Time-To-First Token (TTFT), inferência desagregada para reduzir a interferência de pré-preenchimento e decodificação, e paralelismo de contexto para melhorar a performance em sequências longas. O lançamento também traz suporte para modelos de texto do Qwen 2.5 e integração aprimorada com o Hugging Face Optimum Neuron e o backend NxD Core baseado em PyTorch.
O Neuron 2.24 está disponível em todas as regiões da AWS nas quais as instâncias do Inferentia e Trainium são oferecidas.
Para saber mais e obter uma lista completa de novos atributos e aprimoramentos, consulte: