Veröffentlicht am: Oct 10, 2022
AWS Neuron fügt Unterstützung für von AWS Trainium betriebene Amazon-EC2-Trn1-Instances hinzu, um leistungsstarkes, kostengünstiges Deep-Learning-Training im großen Maßstab freizuschalten. Das Neuron SDK umfasst einen Compiler, Laufzeitbibliotheken und Profiling-Tools, die in beliebte ML-Frameworks wie PyTorch und Tensorflow integriert werden. Mit diesem ersten Release von Neuron 2.x können Entwickler jetzt Deep-Learning-Training-Workloads auf Trn1-Instances ausführen und bis zu 50 % Trainingskosten gegenüber vergleichbaren GPU-basierten EC2-Instances sparen und dabei die beste Trainingsleistung in der AWS Cloud für beliebte NLP-Modelle erhalten.
Neuron fügt Unterstützung für das Trainieren von Deep-Learning-Modellen hinzu, angefangen mit Sprachmodellen; zusätzliche Modellfamilien, darunter Visionsmodelle, werden folgen [wie in der Neuron-Roadmap dargelegt]. Für Sprachmodelle unterstützt dieses Neuron-Release die Modellarchitekturen Transformers Encoder/Autoencoder und Transformers Decoders/Autoregressive, beispielsweise GPT. Neuron unterstützt jetzt nahtlose Just-in-Time-Kompilierung, Schritt-für-Schritt-Ausführung mit Eager-Debug-Modus und Tools, die Leistungs- und Auslastungserkenntnisse liefern. Damit können Entwickler-Workflows beschleunigt und bessere Einblicke in Trainingsworkloads gewonnen werden.
Damit Entwickler Trainium-Innovationen nutzen und maximale Leistungs- und Kostenvorteile erzielen können, schaltet Neuron verschiedene Hardwareoptimierungen frei. Es unterstützt die Datentypen FP32, TF32, FP16 und BF16 sowie automatisches Casting von FP32 zu TF32, BF16 und FP16. Es fügt auch Unterstützung für hardwarebeschleunigtes stochastisches Runden hinzu, wodurch ein Training bei BF16-Geschwindigkeiten ermöglicht wird sowie eine Genauigkeit im FP32-Bereich beim automatischen Casting von FP32 zu BF16.
Zur Unterstützung des verteilten Trainings von umfangreichen Modellen in Accelerators in einem Trn1-UltraCluster fügt Neuron Unterstützung für verschiedene Collective-Compute-Operationen und 800 GBit/s EFA-Netzwerk hinzu, die größte aktuell in der AWS Cloud angebotene Netzwerkbandbreite. Neuron bietet auch Unterstützung für verteilte Trainingsbibliotheken, wie Megatron-LM, in einem öffentlichen gitHub-Repository.
Entwickler können DL-Trainings-Workloads auf Trn1-Instances mit AWS Deep Learning AMIs, AWS Deep Learning Containers oder verwalteten Services wie Amazon Elastic Container Service (Amazon ECS) und AWS ParallelCluster ausführen; in Kürze werden auch Amazon Elastic Kubernetes Service (Amazon EKS), Amazon SageMaker und AWS Batch unterstützt. Um Entwicklern den Einstieg zu erleichtern, bietet dieses Release Beispiele für das Vortraining und die Optimierung von HuggingFace BERT-large und das Vortraining des Modells Megatron-LM GPT3 (6.7B).
Trn1-Instances sind in den folgenden AWS-Regionen als On-Demand, Reserved und Spot-Instances oder als Teil eines Savings Plans verfügbar: USA Ost (Nord-Virginia) und USA West (Oregon). Beginnen Sie mit Trn1-Instances, indem Sie die Neuron-Dokumentation lesen. Eine vollständige Liste der Funktionen, Verbesserungen und Änderungen in diesem Release finden Sie in den Versionshinweisen. Um mehr über anstehende Funktionen zu erfahren, lesen Sie die Neuron-Roadmap.