- Produkt›
- Machine Learning›
- AWS Trainium
AWS Trainium
Trainium3, unser erster 3nm-AWS-KI-Chip, der speziell entwickelt wurde, um die beste Token-Wirtschaftlichkeit für Agentenanwendungen, Argumentation und Videogenerierung der nächsten Generation zu bieten
Warum Trainium?
AWS Trainium ist eine Familie von speziell entwickelten KI-Beschleunigern – Trn1, Trn2 und Trn3 – die darauf ausgelegt sind, skalierbare Leistung und Kosteneffizienz für Trainings und Inferenzen für ein breites Spektrum generativer KI-Workloads zu bieten
Die AWS-Trainium-Familie
Trainium1
Der AWS-Trainium-Chip der ersten Generation unterstützt Trn1-Instances von Amazon Elastic Compute Cloud (Amazon EC2), die bis zu 50 % niedrigere Trainingskosten haben als vergleichbare Amazon-EC2-Instances. Viele Kunden, darunter Ricoh, Karakuri, SplashMusic und Arcee AI, erkennen die Leistungs- und Kostenvorteile von Trn1-Instances.
Trainium2
Der AWS-Trainium2-Chip bietet bis zu 4-mal so viel Leistung wie der Trainium der ersten Generation. Trainium2-basierte Amazon-EC2-Trn2-Instances und Trn2-UltraServer wurden speziell für generative KI entwickelt und bieten ein um 30–40 % besseres Preis-Leistungs-Verhältnis als GPU-basierte EC2-, P5e und P5en-Instances. Trn2-Instances verfügen über bis zu 16 Trainium2-Chips, und Trn2-UltraServer verfügen über bis zu 64 Trainium2-Chips, die mit NeuronLink, unserer firmeneigenen Chip-zu-Chip-Verbindung, verbunden sind. Sie können Trn2-Instances und UltraServer verwenden, um die anspruchsvollsten Modelle zu trainieren und bereitzustellen, darunter große Sprachmodelle (LLMs), multimodale Modelle und Diffusionstransformer, um eine breite Palette von Anwendungen für generative KI der nächsten Generation zu erstellen.
Trainium3
Die Trn3-UltraServer, die von unserem KI-Chip der vierten Generation, AWS Trainium3, angetrieben werden – dem ersten 3nm-KI-Chip von AWS – wurden speziell entwickelt, um die beste Token-Wirtschaftlichkeit für Agentenanwendungen, Argumentation und Videogenerierung der nächsten Generation zu bieten. Trn3-UltraServer bieten eine bis zu 4,4-mal höhere Leistung, eine 3,9-mal höhere Speicherbandbreite und eine über 4-mal bessere Energieeffizienz als Trn2-UltraServer. Sie bieten das beste Preis-Leistungs-Verhältnis für das Training und die Bedienung von Grenzmodellen, einschließlich Reinforcement Learning, Mixture-of-Experts (MoE), Argumentation und Architekturen mit langem Kontext.
Jeder AWS-Trainium3-Chip bietet 2,52 Petaflops (PFLOPS) FP8-Rechenleistung, erhöht die Speicherkapazität um das 1,5-Fache und die Bandbreite um das 1,7-Fache gegenüber Trainium2 auf 144 GB HBM3e-Speicher und 4,9 TB/s an Speicherbandbreite. Trainium3 ist sowohl für dichte als auch für parallele Workloads auf Expertenlevel mit fortschrittlichen Datentypen (MXFP8 und MXFP4) und einem verbesserten Verhältnis von Speicher zu Rechenleistung für Echtzeit-, multimodale und logische Aufgaben konzipiert.
Bei Amazon Bedrock ist Trainium3 der schnellste Beschleuniger. Er bietet eine bis zu dreimal schnellere Leistung als Trainium2 und eine dreimal bessere Energieeffizienz als jeder andere Beschleuniger im Service. In groß angelegten Serving-Tests (z. B. GPT-OSS) liefert Trn3 bei ähnlicher Latenz pro Benutzer über fünfmal höhere Ausgangstoken pro Megawatt als Trn2, was eine nachhaltigere, skalierbare Inferenz mit höherem Durchsatz ermöglicht.
Entwickelt für Entwickler
Die neuen Trainium3-basierten Instances wurden für KI-Forscher entwickelt und werden vom AWS Neuron SDK unterstützt, um
bahnbrechende Leistung zu ermöglichen.
Mit der nativen PyTorch-Integration können Entwickler trainieren und bereitstellen, ohne eine einzige Codezeile zu ändern. Für KI-
Leistungsingenieure, wir haben einen umfassenderen Zugriff auf Trainium3 ermöglicht, sodass Entwickler die Leistung optimieren können,
Kernel anpassen können und Ihre Modelle noch weiter vorantreiben können. Weil Innovation Offenheit fördert, engagieren wir uns für die
Interaktion mit unseren Entwicklern über Open-Source-Tools und -Ressourcen.
Um mehr zu erfahren, besuchen Sie Amazon-EC2-Trn3-Instances, erkunden Sie das AWS Neuron SDK oder registrieren Sie sich für den Zugriff auf die Vorschauversion.
Vorteile
Trn3-UltraServer verfügen über die neuesten Innovationen in der UltraServer-Technologie zur Hochskalierung, mit NeuronSwitch-v1 für
schnellere Alles-gegen-Alles-Kollektive mit bis zu 144 Trainium3-Chips. Insgesamt bietet ein einziger Trn3 UltraServer
bis zu 20,7 TB HBM3e, 706 TB/s Speicherbandbreite und 362 FP8-PFLOPS für bis zu 4,4-mal mehr
Leistung und über viermal bessere Energieeffizienz als Trn2-UltraServer. Trn3 bietet die beste
Leistung zu den niedrigsten Kosten für Training und Inferenz mit den neuesten 1T+-Parameter-MoE- und Reasoning-Typ-Modellen und ermöglicht einen deutlich höheren Durchsatz für GPT-OSS im großen Maßstab als Trainium2-
basierte Instances.
Trn2-UltraServer bleiben eine leistungsstarke, kostengünstige Option für generatives KI-Training und Inferenz von
Modellen mit bis zu 1T-Parametern. Trn2-Instances verfügen über bis zu 16 Trainium2-Chips und Trn2-UltraServer bieten
bis zu 64 Trainium2-Chips, die mit NeuronLink, einer proprietären Chip-zu-Chip-Verbindung, verbunden sind.
Trn1-Instances verfügen über bis zu 16 Trainium-Chips und liefern bis zu 3 FP8-PFLOPs, 512 GB HBM mit 9,8 TB/s
Speicherbandbreite und bis zu 1,6 Tbit/s EFA-Netzwerk.
Gebaut für Forschung und Experimente
Das AWS Neuron SDK hilft Ihnen dabei, die volle Leistung aus Trn3-, Trn2- und Trn1-Instances herauszuholen, sodass Sie sich auf die Entwicklung und Bereitstellung von Modellen und die Verkürzung Ihrer Markteinführungszeit konzentrieren können. AWS Neuron lässt sich nativ in PyTorch Jax und wichtige Bibliotheken wie Hugging Face, vLLM, PyTorch Lightning und andere integrieren. AWS Neuron optimiert sofort einsatzbereite Modelle für verteiltes Training und Inferenz und bietet gleichzeitig tiefe Einblicke für die Profilerstellung und das Debuggen. AWS Neuron lässt sich in Services wie Amazon SageMaker, Amazon SageMaker Hyerpod, Amazon Elastic Kubernetes Service (Amazon EKS), Amazon Elastic Container Service (Amazon ECS), AWS ParallelCluster und AWS Batch sowie in Services von Drittanbietern wie Ray (Anyscale), Domino Data Lab und Datadog integrieren.
Um eine hohe Leistung zu erzielen und gleichzeitig die Genauigkeitsziele zu erreichen, unterstützt AWS Trainium eine Reihe von
Datentypen mit gemischten Genauigkeitsanforderungen wie BF16, FP16, FP8, MXFP8 und MXFP4. Um das schnelle Innovationstempo im Bereich der generativen KI zu unterstützen,
bieten Trainium2 und Trainium3 Hardwareoptimierungen für 4x Sparsity (16:4), Mikroskalierung und stochastisches
Runden und dedizierte kollektive Motoren.
Neuron ermöglicht es Entwicklern, ihre Workloads mithilfe des Neuron Kernel Interface (NKI) für die Kernelentwicklung zu optimieren. NKI stellt das gesamte Trainium ISA zur Verfügung und ermöglicht so die vollständige Kontrolle über die Programmierung auf Befehlsebene, die Speicherzuweisung und die Ausführungsplanung. Entwickler können nicht nur Ihre eigenen Kernel erstellen, sondern auch die Neuron Kernel Library verwenden, die Open Source ist und bereit ist, optimierte Kernel bereitzustellen. Und schließlich bietet Neuron Explore eine vollständige Stack-Transparenz und verbindet den Code von Entwicklern bis hin zu Engines in der Hardware.
Kunden
Kunden wie Databricks, Ricoh, Karakuri, SplashMusic und andere profitieren von den Leistungs- und Kostenvorteilen der Trn1-Instances.
Kunden wie Anthropic, Databricks, Poolside, Ricoh und NinjaTech AI profitieren von erheblichen Leistungs- und Kostenvorteilen bei Trn1- und Trn2-Instances.
Frühe Anwender von Trn3 erreichen ein neues Maß an Effizienz und Skalierbarkeit für die nächste Generation von groß angelegten generativen KI-Modellen.