Bekanntgabe von Amazon-EC2-Trn1-Instances für leistungsstarkes, kostengünstiges Deep-Learning-Training

Veröffentlicht am: Oct 10, 2022

AWS kündigt die allgemeine Verfügbarkeit von Trn1-Instances von Amazon Elastic Compute Cloud (Amazon EC2) an. Amazon-EC2-Trn1-Instances werden von AWS-Trainium-Chips betrieben, die speziell für leistungsstarke ML-Trainingsanwendungen in der Cloud konzipiert sind. Trn1-Instances liefern die höchste Leistung beim DL (Deep Learning)-Training von beliebten Modellen der natürlichen Sprachverarbeitung (NLP) in AWS und bieten gleichzeitig bis zu 50 % Kosteneinsparungen gegenüber vergleichbaren GPU-basierten EC2-Instances. Sie können mit Trn1-Instances beginnen, indem Sie beliebte ML-Frameworks verwenden, etwa PyTorch und TensorFlow, wodurch Sie die Trainingskosten senken, die Trainingsdauer verkürzen, schneller iterieren, um innovativere Modelle zu erstellen, und die Produktivität steigern. Sie können EC2-Trn1-Instances verwenden, um natürliche Sprachverarbeitung (NLP), Computer Vision und Recommender-Modelle in zahlreichen Anwendungen zu trainieren, darunter Spracherkennung, Empfehlungen, Betrugserkennung, Bild- und Videoklassifizierung und Prognosen.

Trn1-Instances verfügen über bis zu 16 AWS-Trainium-Chips, einem M-Chip der zweiten Generation, der von AWS nach AWS Inferentia entwickelt wurde. Trn1-Instances sind die ersten EC2-Instances mit bis zu 800 Gbit/s Elastic-Fabric-Adapter (EFA)-Netzwerkbandbreite. Um eine effiziente Daten- und Modellparallelität gewährleisten zu können, hat jede Trn1-Instance 512 GB Speicher mit hoher Bandbreite, liefert bis zu 3,4 Petaflops an FP16/BF16-Rechenleistung und verfügt über NeuronLink, einer nicht blockierenden Verbindung innerhalb der Instance mit hoher Bandbreite. Trn1-Instances werden in EC2-UltraClusters bereitgestellt, um umfangreiche Deep-Learning-Modelle unterstützen zu können. Sie werden mit den UltraClusters bis zu 30.000 Trainium-Accelerators skalieren können, die mit einem nicht blockierenden Netzwerk im Petabit-Maßstab verbunden sind, und erhalten On-Demand-Zugriff auf einen Supercomputer mit 6,3 Exaflops Rechenleistung. Trn1-Instances haben nativen Support für eine breite Palette an Datentypen, darunter das neue konfigurierbare FP8, dynamische Eingabeformen, Kontrollfluss, benutzerdefinierte C++-Operatoren und stochastisches Runden. AWS Neuron SDK schaltet diese fortschrittlichen Funktionen frei und fügt Unterstützung für Just-in-Time (JIT)-Kompilierung und den Eager-Debug-Modus hinzu. AWS Neuron ist in führende ML-Frameworks und -Bibliotheken integriert, wie PyTorch, TensorFlow, Megatron-LM, Hugging Face und PyTorch FSDP, damit Sie Ihre vorhandenen Frameworks weiter verwenden und Ihre Anwendung mit minimalen Codeänderungen ausführen können.

Entwickler können DL-Trainings-Workloads auf Trn1-Instances mit AWS Deep Learning AMIs, AWS Deep Learning Containers oder verwalteten Services wie Amazon Elastic Container Service (Amazon ECS) und AWS ParallelCluster ausführen; in Kürze werden auch Amazon Elastic Kubernetes Service (Amazon EKS), Amazon SageMaker und AWS Batch unterstützt.

Amazon-EC2-Trn1-Instances sind in zwei Größen verfügbar: trn1.2xlarge, zum Experimentieren mit einem einzigen Accelerator und kostengünstigen Trainieren kleiner Modelle, und trn1.32xlarge zum Trainieren umfangreicher Modelle. Sie sind in den folgenden AWS-Regionen als On-Demand, Reserved und Spot-Instances oder als Teil eines Savings Plans verfügbar: USA Ost (Nord-Virginia) und USA West (Oregon).

Mehr über Trn1-Instances erfahren Sie unter Amazon-EC2-Trn1-Instances.

Bekanntgabe von Amazon-EC2-Trn1-Instances für leistungsstarkes, kostengünstiges Deep-Learning-Training

Ende des Supports für Internet Explorer