Veröffentlicht am: Apr 13, 2023

Heute kündigt AWS die allgemeine Verfügbarkeit von Trn1n-Instances in Amazon Elastic Compute Cloud (Amazon EC2) an, die von AWS-Trainium-Beschleunigern betrieben werden. Auf der Grundlage der Funktionen von Trn1-Instances, die von Trainium betrieben werden, verdoppeln Trn1n-Instances die Netzwerkbandbreite auf 1.600 Gbit/s des Elastic Fabric Adapters der zweiten Generation (eFav2). Mit dieser erhöhten Bandbreite ermöglichen Trn1n-Instances eine bis zu 20 % schnellere Trainingszeit für das Training netzwerkintensiver generativer KI-Modelle wie großer Sprachmodelle (LLMs) und Mixture of Experts (MoE). Ähnlich wie Trn1-Instances ermöglichen Trn1n-Instances bei den Trainingskosten im Vergleich zu vergleichbaren Amazon-EC2-Instances Einsparungen von bis zu 50 %.

Zur Unterstützung groß angelegter Deep-Learning-Modelle (DL) werden Trn1n-Instances mit EFav2-Hochgeschwindigkeitsnetzwerken in EC2-Ultraclustern eingesetzt. EFav2 verteilt die kollektive Kommunikationsleistung im Vergleich zu EFA der ersten Generation um bis zu 50 % besser und beschleunigt so verteiltes Training. Mit den UltraClustern können Sie auf bis zu 30 000 Trainium-Beschleuniger skalieren und erhalten bei Bedarf Zugriff auf einen Supercomputer mit 6,3 Exaflops Rechenleistung.

Ähnlich wie Trn1 hat jede Trn1n-Instance 512 GB Speicher mit hoher Bandbreite, liefert bis zu 3,4 Petaflops an FP16/BF16-Rechenleistung und verfügt über NeuronLink, einen nicht blockierenden Interconnect innerhalb einer Instance mit hoher Bandbreite. AWS Neuron SDK lässt sich nativ in gängige Frameworks für maschinelles Lernen (ML) wie PyTorch und TensorFlow integrieren, sodass Sie Ihre vorhandenen Frameworks und Ihren Anwendungscode weiterhin nutzen können, um DL-Modelle auf Trn1n zu trainieren. Entwickler können DL-Trainings-Workloads auf Trn1n-Instances mit AWS Deep Learning AMIs, AWS Deep Learning Containers oder verwalteten Services wie Amazon Elastic Container Service (Amazon ECS), Amazon Elastic Kubernetes Service (Amazon EKS), AWS ParallelCluster, Amazon SageMaker und AWS Batch unterstützen.

Weitere Informationen zu Trn1n-Instances finden Sie auf der Produktdetailseite zu Amazon-EC2-Trn1n-Instances. Informationen zu den ersten Schritten mit Trn1n-Instanzen finden Sie in der Neuron-Dokumentation.