- Amazon EC2›
- Instance-Typen›
- Trn3-Instances
AWS-EC2-Trn3-Instances
Speziell entwickelt, um die beste Token-Wirtschaftlichkeit für Agenten-, Argumentation- und Videogenerierungsanwendungen der nächsten Generation zu bieten.
Warum Amazon-EC2-Trn3-UltraServer?
Bei den heutigen Frontier-Modellen handelt es sich um multimodale Modelle mit Billionen von Parametern, die lange Kontexte über 1 Million Token unterstützen. Dies erfordert die nächste Generation von skalierbaren Hochleistungsrechnern. Amazon-EC2-Trn3 UltraServer und der AWS-Neuron-Entwickler-Stack wurden speziell für diese Anforderungen entwickelt und bieten die Leistung, Kosten- und Energieeffizienz, die für das Training und den Betrieb von Agenten- und Argumentationssystemen der nächsten Generation in großem Maßstab erforderlich sind.
Amazon-EC2-Trn3-UltraServer, angetrieben von unserem KI-Chip Trainium3 der vierten Generation, unserem ersten 3-nm-AWS-KI-Chip, der speziell entwickelt wurde, um die beste Token-Wirtschaftlichkeit für Agenten-, Argumentations- und Videogenerierungsanwendungen der nächsten Generation zu bieten.
Trn3-UltraServer bietet im Vergleich zu unseren Trn2-UltraServern eine bis zu 4,4-mal höhere Leistung, eine 3,9-mal höhere Speicherbandbreite und eine mehr als 4-fach bessere Leistung pro Watt. Damit bietet er das beste Preis-Leistungs-Verhältnis für das Training und den Betrieb von Modellen im Frontier-Maßstab, darunter Reinforcement Learning, Mixture-of-Experts (MoE), Argumentation und Architekturen mit langem Kontext. Trn3-UltraServer setzt die Führungsposition der Trainium-Familie in Bezug auf Preis-Leistungs-Verhältnis und Skalierbarkeit fort und hilft Ihnen dabei, schneller zu trainieren und die nächste Generation von Basismodellen mit höherer Leistung und kostengünstigerer Bereitstellung einzusetzen.
Trn3-UltraServer können auf bis zu 144 Trainium3-Chips (bis zu 362 FP8-PFLOPs) skaliert werden und sind in EC2-UltraClustern 3.0 verfügbar, um auf Hunderttausende von Chips skaliert zu werden. Der Trn3-UltraServer der nächsten Generation verfügt über NeuronSwitch-v1, ein All-to-All-Fabric, die NeuronLink-v4 mit einer Bandbreite von 2 TB/s pro Chip nutzt.
Mit der nativen Unterstützung für PyTorch, JAX, Hugging Face Optimum Neuron und anderen Bibliotheken sowie voller Kompatibilität zwischen Amazon SageMaker, EKS, ECS, AWS Batch und ParallelCluster können Sie problemlos loslegen
Vorteile
Trn3-UltraServer, angetrieben durch AWS-Trainium3-Chips, bieten im Vergleich zu unseren Trn2-UltraServern eine bis zu 4,4-fach höhere Leistung, eine 3,9-fach höhere Speicherbandbreite und eine 4-mal bessere Leistung pro Watt. Auf Amazon Bedrock ist Trainium3 der schnellste Beschleuniger und bietet eine bis zu 3-mal schnellere Leistung als Trainium2. Diese bemerkenswerte Leistungssteigerung führt auch zu einem deutlich höheren Durchsatz für Modelle wie GPT-OSS, die im Vergleich zu Trainium2-basierten Instances im großen Maßstab eingesetzt werden, wobei die Latenz pro Benutzer gering bleibt.
Jeder Trn3-UltraServer skaliert auf bis zu 144 Trainium3-Chips, und die neuen Racks bieten im Vergleich zu Trn2 eine über doppelt so hohe Chip-Dichte, was die Rechenleistung pro Rack erhöht und die Effizienz des Rechenzentrums verbessert. Trn3-UltraServer basieren auf dem AWS Nitro System und dem Elastic Fabric Adapter (EFA) und werden in nicht blockierenden EC2-UltraClustern 3.0 im Multi-Petabit-Maßstab eingesetzt, sodass Sie auf Hunderttausende von Trainium-Chips für verteiltes Training und Serverbetrieb skalieren können.
Trn3-Instances setzen die Tradition von Trainium als Leistungsführer fort und bieten ein besseres Preis-Leistungs-Verhältnis als herkömmliche KI-Beschleuniger, sodass Sie die Kosten pro Token und pro Experiment senken können. Ein höherer Durchsatz bei Workloads wie GPT-OSS und LLMs im Frontier-Maßstab senkt die Inferenzkosten und reduziert die Trainingszeiten für Ihre anspruchsvollsten Modelle.
Die AWS-Trainium3-Chips, unsere ersten 3-nm-KI-Chips, sind so optimiert, dass sie die beste Token-Wirtschaftlichkeit für Agenten-, Argumentations- und Videogenerierungsanwendungen der nächsten Generation bieten. Trn3-UltraServer bieten eine über 4-mal bessere Energieeffizienz als Trn2-UltraServer und das auf Amazon Bedrock. Im realen Betrieb erreicht Trn3 über 5-mal höhere Ausgabe-Token pro Megawatt als Trn2-UltraServer bei ähnlicher Latenz pro Benutzer. So können Sie Ihre Nachhaltigkeitsziele erreichen, ohne Kompromisse bei der Leistung eingehen zu müssen.
Trn3-UltraServer werden von AWS Neuron, dem Entwickler-Stack für AWS Trainium und AWS Inferentia, unterstützt, sodass Sie vorhandenen PyTorch- und JAX-Code ohne Codeänderungen ausführen können.
TNeuron unterstützt beliebte ML-Bibliotheken wie vLLM, Hugging Face Optimum Neuron, PyTorch Lightning, TorchTitan und lässt sich in Services wie Amazon SageMaker, Amazon SageMaker HyperPod, Amazon EKS, Amazon ECS, AWS Batch und AWS ParallelCluster integrieren.
Features
Jeder AWS-Trainium3-Chip liefert 2,52 FP8-PFLOPs an Rechenleistung, und Trn3-UltraServer lassen sich auf bis zu 144 Trainium3-Chips skalieren und bieten bis zu 362 FP8-PFLOPs an FP8-Rechenleistung in einem einzigen UltraServer. Diese Rechenumgebung mit hoher Dichte ist für das Training und den Betrieb von Transformern im im Frontier-Maßstab, Mixture-of-Experts-Modellen und Architekturen mit langem Kontext konzipiert.
AWS Trainium3 bietet sowohl mehr Speicherkapazität als auch mehr Bandbreite im Vergleich zur vorherigen Generation, wobei jeder Chip 144 GB HBM3e und 4,9 TB/s Speicherbandbreite bietet. Trn3-UltraServer bietet bis zu 20,7 TB HBM3e und eine Gesamtspeicherbandbreite von 706 TB/s und ermöglicht so größere Batch-Größen, erweiterte Kontextfenster und eine höhere Auslastung für extrem große multimodale Modelle, Video- und Argumentationsmodelle.
Trn3-UltraServer stellen NeuronSwitch-v1 vor, ein All-to-All-Fabric, das die Interchip-Verbindungsbandbreite im Vergleich zu Trn2-UltraServern verdoppelt, wodurch die Modellparallelitätseffizienz verbessert und der Kommunikationsaufwand für MoE- und Tensor-Parallel-Training reduziert wird. Trn3-UltraServer unterstützen bis zu 144 Chips pro UltraServer, mehr als 2-mal mehr als Trn2-UltraServer. Für groß angelegtes verteiltes Training setzen wir Trn3-UltraServer in UltraCluster 3.0 mit Hunderttausenden von Trainium3-Chips in einem einzigen nicht blockierenden Netzwerk im Petabit-Maßstab ein.
Trainium3 unterstützt die Präzisionsmodi FP32, BF16, MXFP8 und MXFP4, sodass Sie Genauigkeit und Effizienz bei dichten und Expert-parallelen Workloads ausgleichen können. Integrierte Engines für kollektive Kommunikation beschleunigen die Synchronisation und reduzieren den Trainingsaufwand für große Transformer-, Diffusions- und Mixture-of-Experts-Modelle, wodurch der durchgängige Trainingsdurchsatz in großem Maßstab verbessert wird.
Trn3-UltraServer werden mit dem AWS Neuron SDK programmiert, das die Compiler-, Laufzeit-, Trainings- und Inferenzbibliotheken sowie Entwicklertools für AWS Trainium und AWS Inferentia bereitstellt. Das Neuron Kernel Interface (NKI) bietet einfachen Zugriff auf den Trainium-Befehlssatz, den Speicher und die Ausführungsplanung, sodass Leistungstechniker benutzerdefinierte Kernel erstellen und die Leistung über Standard-Frameworks hinaus steigern können. Neuron Explorer bietet eine einheitliche Profiling- und Debugging-Umgebung, die die Ausführung von PyTorch- und JAX-Code bis hin zu Hardware-Operationen verfolgt und umsetzbare Erkenntnisse für Sharding-Strategien, Kernel-Optimierungen und groß angelegte verteilte Ausführungen liefert.
Haben Sie die gewünschten Informationen gefunden?
Ihr Beitrag hilft uns, die Qualität der Inhalte auf unseren Seiten zu verbessern.