Produkt›
Machine Learning›
AWS Trainium

AWS Trainium

Erzielen Sie bei Ihrem Deep Learning- und generativen KI-Training eine hohe Leistung und senken Sie gleichzeitig die Kosten

Erste Schritte mit Trainium mit Neuron

Warum Trainium?

AWS Trainium ist der Machine Learning (ML)-Chip, den AWS speziell für Deep Learning (DL)-Trainings von über 100 Milliarden Parametermodellen entwickelt hat. Jede Amazon Elastic Compute Cloud (Amazon EC2)-Trn1-Instance setzt bis zu 16 Trainium-Beschleuniger ein, um eine leistungsstarke und kostengünstige Lösung für DL-Training in der Cloud bereitzustellen. Obwohl der Einsatz von DL und generativer KI immer schneller voranschreitet, verfügen viele Entwicklungsteams über feste Budgets, was den Umfang und die Häufigkeit des Trainings begrenzt, das zur Verbesserung ihrer Modelle und Anwendungen erforderlich ist. Trainium-basierte Amazon-EC2-Trn1-Instances lösen diese Herausforderung, indem sie die Zeit bis zum Training verkürzen und gleichzeitig bis zu 50 % weniger Kosten verursachen als vergleichbare EC2-Instances. Trainium wurde für das Training natürlicher Sprachverarbeitung, Computer Vision und Empfehlungsmodelle optimiert, die in einer Vielzahl von Anwendungen wie Textzusammenfassung, Codegenerierung, Fragenbeantwortung, Bild- und Videogenerierung, Empfehlungen und Betrugserkennung verwendet werden.

AWS Neuron SDK hilft Entwicklern, Modelle auf Trainium-Beschleunigern zu trainieren (und sie auf AWS-Inferentia-Beschleunigern bereitzustellen). Es lässt sich nativ in gängige Frameworks wie PyTorch und TensorFlow integrieren, sodass Sie weiterhin auf Trainium-Beschleunigern trainieren und Ihre bestehenden Codes und Workflows weiter nutzen können.

Vorteile von Trainium

Leistungsstarkes, kostengünstiges DL-Training

Von Trainium unterstützte Trn1-Instances bieten eine hohe Leistung und reduzieren gleichzeitig die Schulungskosten im Vergleich zu vergleichbaren Amazon-EC2-Instances um bis zu 50 %. Jeder Trainium-Beschleuniger enthält zwei NeuronCores der zweiten Generation, die speziell für DL-Algorithmen entwickelt wurden. Zur Unterstützung einer effizienten Daten- und Modellparallelität verfügt jeder Trainium-Beschleuniger über 32 GB Speicher mit hoher Bandbreite, liefert bis zu 190 TFLOPS an FP16/BF16-Rechenleistung und verfügt über NeuronLink, eine instanceinterne, ultraschnelle, nicht blockierende Verbindungstechnologie.

Native Unterstützung für ML-Frameworks und -Bibliotheken

Das AWS Neuron SDK, das Trainium unterstützt, ist nativ mit PyTorch und TensorFlow integriert. Dadurch wird sichergestellt, dass Sie Ihre bestehenden Arbeitsabläufe in diesen beliebten Frameworks weiter nutzen und mit Trainium mit nur wenigen Zeilen Codeänderungen loslegen können. Für das verteilte Modelltraining unterstützt das Neuron SDK Bibliotheken wie Megatron-LM und PyTorch Fully Sharded Data Parallel (FSDP). Um schnell mit den von Trainium betriebenen Amazon-EC2-Trn1-Instances zu beginnen, sehen Sie sich die beliebten Modellbeispiele in der Neuron-Dokumentation an.

Große Auswahl an Datentypen mit automatischem Casting

Um eine hohe Leistung zu bieten und gleichzeitig die Genauigkeitsziele zu erreichen, ist Trainium für die Datentypen FP32, TF32, BF16, FP16, UINT8, und den neuen konfigurierbaren FP8-Datentyp (cFP8) optimiert.

Modernste DL-Fähigkeiten

Um das schnelle Tempo der DL-Innovation und der generativen KI zu unterstützen, verfügt Trainium über mehrere Innovationen, die es flexibel und erweiterbar machen, damit sich ständig weiterentwickelnde DL-Modelle trainiert werden können. Trainium verfügt über Hardwareoptimierungen und Softwareunterstützung für dynamische Eingabeformen. Um in Zukunft die Unterstützung neuer Operatoren zu ermöglichen, unterstützt es benutzerdefinierte Operatoren, die in C++ geschrieben wurden. Es unterstützt auch das stochastische Runden, eine Methode des wahrscheinlichkeitsbasierten Rundens, das im Vergleich zu herkömmlichen Rundungsmodi eine hohe Leistung und höhere Genauigkeit ermöglicht.

Für Nachhaltigkeit gebaut

Trn1-Instances unterstützt von Trainium sind für DL-Training bis zu 25 % energieeffizienter als vergleichbare EC2-Instances mit beschleunigter Datenverarbeitung. Trn1-Instances helfen Ihnen, Ihre Nachhaltigkeitsziele beim Training extrem großer Modelle zu erreichen.

Videos

Ein Blick hinter die Kulissen der Infrastruktur für generative KI bei Amazon

DL beschleunigen und schneller innovieren mit AWS Trainium

Einführung von Amazon-EC2-Trn1-Instances, die von AWS Trainium unterstützt werden

Ressourcen

Optimieren und implementieren Sie Llama 2-Modelle kosteneffizient in Amazon SageMaker JumpStart mit AWS Inferentia und AWS Trainium

Llama2 mit AWS Trainium in Amazon Elastic Kubernetes Service (Amazon EKS) trainieren

Kosteneffizienz trifft Genauigkeit: Kostengünstiges Training von GPT NeoX- und Pythia-Modellen mit AWS Trainium

So sparte Amazon Search M5 mithilfe von AWS Trainium 30 % der Trainingskosten für große Sprachmodelle (LLM)

Schnelle und kostengünstige LLaMA 2-Feinabstimmung mit AWS Trainium

Ihre ML-Workloads in Amazon ECS skalieren, unterstützt durch AWS-Trainium-Instances

Additional resources

Verwenden Sie AWS Neuron und beginnen Sie mit AWS Trainium in TensorFlow, PyTorch oder MXNet

Weitere Informationen

Additional resources

AWS-Neuron-Funktions-Roadmap

Weitere Informationen

Erste Schritte mit Trainium

Beginnen Sie mit der Entwicklung in der Konsole

Trainingsbeispiele und Tutorials (Trn1 und Trn1n)

Weitere Informationen