AWS Neuron führt den Flash Attention-Kernel ein, der hohe Leistung und große Sequenzlängen ermöglicht

Veröffentlicht am: 11. Juli 2024

Heute kündigte AWS die Veröffentlichung von Neuron 2.19 an, das Unterstützung für den Flash-Attention-Kernel einführt, um Ihnen ein leistungsstarkes LLM-Modelltraining und Inferenz mit großen Sequenzlängen zu ermöglichen.

AWS Neuron ist das SDK für AWS Inferentia- und Trainium-basierte Instances, das speziell für generative KI entwickelt wurde. Neuron lässt sich in beliebte ML-Frameworks wie PyTorch integrieren. Es umfasst einen Compiler, eine Laufzeit, Tools und Bibliotheken zur Unterstützung des Hochleistungstrainings und der Inferenz von KI-Modellen auf Trn1-Instances und Inf2-Instances.

Diese Version fügt neue Features und Leistungsverbesserungen für Training und Inferenz hinzu. Darüber hinaus werden neue Ubuntu22-Neuron-DLAMIs für PyTorch 2.1 und PyTorch 1.13 eingeführt. Neuron 2.19 bietet Unterstützung für den Flash Attention-Kernel, um das Training großer Sequenzlängen (größer oder gleich 8K), Llama3-Modelltraining und Interleaved-Pipeline-Parallelität zu ermöglichen, um die Trainingseffizienz und die Ressourcenauslastung zu verbessern. In Bezug auf die Inferenz bietet diese Version Unterstützung für den Flash Attention-Kernel, um LLM-Inferenz für Kontextlängen von max. 32 k zu ermöglichen. Neuron 2.19 unterstützt zusätzlich die Llama3-Modellinferenz und Beta-Unterstützung für kontinuierliche Batch-Verarbeitung mit Mistral-7B-v0.2-Modellen. Neuron 2.19 führt neue Tools ein: Neuron Node Problem Detector, Recovery-Plugin in EKS und Neuron Monitor für EKS, um eine erweiterte Überwachung der Neuron-Metriken in Kubernetes zu ermöglichen.

Sie können das AWS Neuron SDK verwenden, um Modelle auf Trn1- und Inf2-Instances zu trainieren und bereitzustellen, die in AWS-Regionen als On-Demand-Instances, Reserved Instances, Spot Instances oder als Teil eines Savings Plan verfügbar sind.

Eine Liste der Features in Neuron 2.19 finden Sie in den Versionshinweisen zu Neuron. Informationen zu den ersten Schritten mit Neuron finden Sie unter:
AWS Neuron
Inf2-Instances
Trn1-Instances

AWS Neuron führt den Flash Attention-Kernel ein, der hohe Leistung und große Sequenzlängen ermöglicht

Lernen

Ressourcen

Entwickler

Hilfe