Amazon-EC2-Trn1-Instances
Leistungsstarkes, kostengünstiges Training generativer KI-Modelle
Amazon Elastic Compute Cloud (EC2)-Trn1-Instances, die von AWS-Trainium-Chips unterstützt werden, wurden speziell für das leistungsstarke Deep Learning (DL)-Training generativer KI-Modelle, einschließlich großer Sprachmodelle (LLMs) und latenter Diffusionsmodelle, entwickelt. Trn1-Instances bieten Einsparungen von bis zu 50 % der Kosten gegenüber anderen vergleichbaren Amazon-EC2-Instances. Sie können Trn1-Instances verwenden, um mehr als 100 B Parameter-DL- und generative KI-Modelle für eine Vielzahl von Anwendungen wie Textzusammenfassung, Codegenerierung, Fragenbeantwortung, Bild- und Videogenerierung, Empfehlungen und Betrugserkennung zu trainieren.
Das AWS-Neuron-SDK hilft Entwicklern, Modelle auf AWS Trainium zu trainieren und Modelle auf AWS-Inferentia-Chips bereitzustellen. Es lässt sich nativ in Frameworks wie PyTorch und TensorFlow integrieren, sodass Sie Ihren vorhandenen Code und Ihre Workflows weiterhin verwenden können, um Modelle auf Trn1-Instances zu trainieren. Informationen zur aktuellen Neuron-Unterstützung für Frameworks und Bibliotheken für Machine Learning (ML), Modellarchitekturen und Hardwareoptimierungen finden Sie in der Neuron-Dokumentation.
Trn1n-Instances sind jetzt verfügbar
Trn1n-Instances verdoppeln die Netzwerkbandbreite (im Vergleich zu Trn1-Instances) auf 1 600 Gbit/s Elastic Fabric Adapter (EFAv2). Mit dieser erhöhten Bandbreite ermöglichen Trn1-Instances eine bis zu 20 % schnellere Trainingszeit für das Training netzwerkintensiver generativer KI-Modelle wie großer Sprachmodelle (LLMs) und Mixture of Experts (MoE).
Vorteile
Reduzieren derr Trainingszeiten für Modelle mit mehr als 100 B Parametern
Trn1-Instances wurden speziell für Hochleistungs-DL entwickelt und reduzieren die Trainingszeiten von Monaten auf Wochen oder sogar Tage. Dank kürzerer Trainingszeiten können Sie schneller iterieren, innovativere Modelle erstellen und die Produktivität steigern. Trn1n-Instances bieten bei Modellen, die von einer erhöhten Netzwerkbandbreite profitieren, eine bis zu 20 % schnellere Trainingszeit als Trn1-Instances.
Ihre Kosten für Feinabstimmungen und Vortrainings senken
Trn1-Instances bieten eine hohe Leistung und bieten gleichzeitig Einsparungen von bis zu 50 % gegenüber anderen vergleichbaren Amazon-EC2-Instances.
Nutzen Sie Ihre vorhandenen ML-Frameworks und -Bibliotheken
Verwenden Sie das AWS Neuron SDK, um die volle Leistung von Trn1-Instances zu nutzen. Mit Neuron können Sie beliebte ML-Frameworks wie PyTorch und TensorFlow verwenden und weiterhin Ihren vorhandenen Code und Ihre Workflows verwenden, um Modelle auf Trn1-Instances zu trainieren. Um schnell mit Trn1-Instances zu beginnen, sehen Sie sich die beliebten Modellbeispiele in der Neuron-Dokumentation an.
Mit EC2-UltraClusters auf bis zu 6 Exaflops hochskalieren
Trn1-Instances unterstützen bis zu 800 Gbit/s Netzwerkbandbreite der zweiten Generation von Elastic Fabric Adapter (EFAv2). Trn1n-Instances unterstützen bis zu 1 600 Gbit/s EFAv2-Netzwerkbandbreite, um eine noch höhere Leistung für netzwerkintensive Modelle zu bieten. Beide Instances werden in EC2-UltraClustern bereitgestellt, die eine Skalierung auf bis zu 30 000 Trainium-Chips ermöglichen, die über ein nicht blockierendes Petabit-Netzwerk miteinander verbunden sind und bis zu 6 Exaflops an Datenverarbeitungsleistung bereitstellen.
Funktionsweise
-
Verwendung von AWS DLAMI
-
Amazon EKS verwenden
-
Amazon ECS verwenden
-
Amazon SageMaker verwenden
-
Verwendung von AWS DLAMI
-
Amazon EKS verwenden
-
Amazon ECS verwenden
-
Amazon SageMaker verwenden
Funktionen
Bis zu 3 Petaflops mit AWS Trainium
Trn1-Instances werden von bis zu 16 AWS-Trainium-Chips angetrieben, die speziell dafür entwickelt wurden, das DL-Training zu beschleunigen und bis zu 3 Petaflops FP16/BF16-Datenverarbeitungsleistung bereitzustellen. Jeder Chip enthält zwei NeuronCores der zweiten Generation.
Bis zu 512 GB Beschleunigerspeicher mit hoher Bandbreite
Um eine effiziente Daten- und Modellparallelität zu unterstützen, verfügt jede Trn1-Instance über 512 GB Shared Accelerator Memory (HBM) mit einer Gesamtspeicherbandbreite von 9,8 TB/s.
Hochleistungsnetzwerk und -speicher
Um das Training netzwerkintensiver Modelle wie Mixture of Experts (MoE) und Generative Pre-Trained Transformers (GPT) zu unterstützen, bietet jede Trn1n-Instance bis zu 1 600 Gbit/s EFAv2-Netzwerkbandbreite. Jede Trn1-Instance unterstützt bis zu 800 Gbit/s EFAv2-Bandbreite. EFAv2 verteilt die kollektive Kommunikationsleistung im Vergleich zu EFA der ersten Generation um bis zu 50 % besser und beschleunigt so verteiltes Training. Diese Instances unterstützen außerdem bis zu 80 Gbit/s Amazon Elastic Block Store (EBS)-Bandbreite und bis zu 8 TB lokalen NVMe Solid State Drive (SSD)-Speicher für schnellen Workload-Zugriff auf große Datensätze.
NeuronLink-Verbindung
Für eine schnelle Konnektivität zwischen Trainium-Chips und eine optimierte kollektive Kommunikation unterstützen Trn1-Instances bis zu 768 GB/s an NeuronLink, einer blockierfreien Hochgeschwindigkeitsverbindung.
Optimiert für neuartige Datentypen
Um eine hohe Leistung zu bieten und gleichzeitig die Genauigkeitsziele zu erreichen, sind Trn1-Instances für die Datentypen FP32, TF32, BF16, FP16, UINT8 und den neuen konfigurierbaren FP8-Datentyp (cFP8) optimiert.
DL-Optimierungen auf dem neuesten Stand der Technik
Um das schnelle Tempo der DL-Innovation und der generativen KI zu unterstützen, verfügen Trn1-Instances über mehrere Innovationen, die sie flexibel und erweiterbar machen, damit sich ständig weiterentwickelnde DL-Modelle trainiert werden können. Trn1-Instances verfügen über Hardwareoptimierungen und Softwareunterstützung für dynamische Eingabeformen. Um in Zukunft die Unterstützung neuer Operatoren zu ermöglichen, unterstützen sie benutzerdefinierte Operatoren, die in C++ geschrieben wurden. Sie unterstützen auch das stochastische Runden, eine Methode des wahrscheinlichkeitsbasierten Rundens, das im Vergleich zu herkömmlichen Rundungsmodi eine hohe Leistung und höhere Genauigkeit ermöglicht.
Kunden
„Tausende von Kunden haben Databricks in AWS implementiert und können mit MosaicML Basismodelle für eine Vielzahl von Anwendungsfällen vortrainieren, feinabstimmen und bereitstellen. AWS Trainium bietet uns den Umfang und die hohe Leistung, die wir zum Trainieren unserer Mosaic-MPT-Modelle benötigen, und das zu geringen Kosten. Während wir unsere Mosaic-MPT-Modelle der nächsten Generation trainieren, wird Trainium2 es ermöglichen, Modelle noch schneller zu erstellen. Damit können wir unseren Kunden eine beispiellose Skalierung und Leistung bieten, damit sie ihre eigenen generativen KI-Anwendungen schneller auf den Markt bringen können.“
Naveen Rao, VP of Generative AI, Databricks
„Mit 16 Knoten von Amazon-EC2-Trn1-Instances, die von AWS-Trainium-Chips angetrieben werden, haben wir stockmark-13b entwickelt und veröffentlicht, ein großes Sprachmodell mit 13 Milliarden Parametern, das von Grund auf auf einem japanischen Korpus mit 220 Milliarden Token trainiert wurde. Der Korpus enthält die neuesten Texte aus dem Bereich Business Domain bis September 2023. Das Modell erzielte im Vergleich zu anderen gleichwertigen Modellen den höchsten JSQuAD-Wert (0,813) beim JGLUE-Benchmark (Japanese General Language Understanding Evaluation). Es ist bei Hugging Face Hub erhältlich und kann mit der MIT-Lizenz kommerziell verwendet werden. Trn1-Instances haben uns geholfen, die Schulungskosten im Vergleich zu gleichwertigen GPU-Instances um 20 % zu senken.“
Kosuke Arima, CTO, Stockmark Co., Ltd.
Yoshiaki Umetsu, Director, Digital Technology Development Center, RICOH
„Bei HeliXon entwickeln wir KI-Lösungen der nächsten Generation für proteinbasierte Therapeutika. Unser Ziel ist es, KI-Tools zu entwickeln, die es Wissenschaftlern ermöglichen, die Funktion und Interaktion von Proteinen zu entschlüsseln, große genomische Datensätze zur Zielidentifikation abzufragen und Therapeutika wie Antikörper und Zelltherapien zu entwickeln. Heute verwenden wir Trainingsbibliotheken wie FSDP, um das Modelltraining auf vielen GPU-basierten Servern zu parallelisieren, aber das Training eines einzelnen Modells dauert immer noch Wochen. Wir freuen uns, Amazon-EC2-Trn1-Instances mit der höchsten Netzwerkbandbreite (800 Gbit/s) zu nutzen, die in AWS verfügbar ist, um die Leistung unserer verteilten Trainingsaufträge zu verbessern und unsere Modelltrainingszeiten zu verkürzen und gleichzeitig unsere Trainingskosten zu senken.“
Jian Peng, CEO, Helixon
Money Forward, Inc. bietet Unternehmen und Privatpersonen eine offene und faire Finanzplattform.
„Wir haben einen groß angelegten KI-Chatbot-Service auf den Amazon EC2 Inf1-Instances gestartet und unsere Inferenzlatenz um 97 % gegenüber vergleichbaren GPU-basierten Instances reduziert und gleichzeitig die Kosten gesenkt. Da wir maßgeschneiderte NLP-Modelle regelmäßig verfeinern, ist es auch wichtig, die Trainingszeiten und -kosten der Modelle zu reduzieren. Basierend auf unseren Erfahrungen mit der erfolgreichen Migration von Inferenz-Workloads auf Inf1-Instances und unserer ersten Arbeit mit EC2-Trn1-Instances auf AWS-Trainium-Basis gehen wir davon aus, dass Trn1-Instances einen zusätzlichen Mehrwert bieten werden, indem sie die durchgängige ML-Leistung und die Kosten verbessern.“
Takuya Nakade, CTO, Money Forward, Inc.
Magic ist ein integriertes Produkt- und Forschungsunternehmen, das KI entwickelt und sich wie ein Kollege anfühlt, der die Welt produktiver macht.
„Das Training großer autoregressiver Modelle, die auf Transformern basieren, ist ein wesentlicher Bestandteil unserer Arbeit. Die von AWS Trainium betriebenen Trn1-Instances wurden speziell für diese Workloads entwickelt und bieten nahezu unendliche Skalierbarkeit, schnelle Netzwerke zwischen Knoten und erweiterte Unterstützung für 16- und 8-Bit-Datentypen. Mit Trn1-Instances können wir große Modelle schneller und zu geringeren Kosten trainieren. Wir freuen uns besonders über die native Unterstützung der stochastischen BF16-Rundung in Trainium, die die Leistung erhöht, während die numerische Genauigkeit nicht von voller Präzision zu unterscheiden ist.“
Eric Steinberger, Mitgründer und CEO, Magic
CACTUS bietet eine Reihe von Produkten und Lösungen für Forscher und Organisationen, die die Art und Weise verbessern, wie Forschung finanziert, veröffentlicht, kommuniziert und entdeckt wird.
„Bei Cactus Labs nutzen wir das Potenzial der KI. Die Forschung konzentriert sich auf die Verarbeitung natürlicher Sprache (NLP), Ranking und Empfehlung, Konversations-KI, große Sprachmodelle, Computer Vision, AR/VR und XAI. Im Einklang mit unserem Bestreben, ein schnelleres Training von Modellen für Machine Learning zu ermöglichen und unseren Forschern die Durchführung von mehr Experimenten bei gleichzeitiger Kontrolle der Infrastrukturkosten zu ermöglichen, waren wir hocherfreut, AWS Trainium zu evaluieren. Die sofort einsatzbereiten Funktionen von AWS Trainium wie XLA-Optimierung, paralleles Datentraining für mehrere Mitarbeiter und Graph-Caching sind für uns wirklich nützlich, um unsere Trainingszeiten zu verkürzen und uns zu helfen, mehr Experimente schneller und günstiger durchzuführen.“
Nishchay Shah, CTO und Head of Emerging Products, Cactus Communications
Watashiha bietet einen innovativen und interaktiven KI-Chatbot-Service, „OGIRI AI“, an, der Humor beinhaltet, um auf eine Frage sofort eine lustige Antwort zu geben.
„Wir verwenden große Sprachmodelle, um Humor zu integrieren und unseren Kunden mit unseren KI-Services ein relevanteres und gesprächigeres Erlebnis zu bieten. Dies erfordert, dass wir diese Modelle regelmäßig vorab trainieren und optimieren. Wir haben ein GPT-basiertes japanisches Modell auf der EC2-Trn1.32xlarge-Instance vortrainiert und dabei Tensor und Datenparallelität genutzt. Das Training wurde innerhalb von 28 Tagen abgeschlossen, was einer Kostenreduzierung von 33 % gegenüber unserer vorherigen GPU-basierten Infrastruktur entspricht. Da unsere Modelle immer komplexer werden, freuen wir uns auf Trn1n-Instances, die über die doppelte Netzwerkbandbreite von Trn1 verfügen, um das Training größerer Modelle zu beschleunigen.“
Yohei Kobashi, CTO, Watashiha, K.K.
Partner
„Bei PyTorch beschleunigen wir die Einführung von Machine Learning vom Prototyping in der Forschung bis hin zur kundenbereiten Produktion. Wir haben intensiv mit dem AWS-Team zusammengearbeitet, um native PyTorch-Unterstützung für die neuen Amazon-EC2-Trn1-Instances mit AWS Trainium bereitzustellen, die speziell für das Training von Deep-Learning-Modellen entwickelt wurden. Entwickler, die PyTorch-Modelle erstellen, können mit minimalen Codeänderungen mit dem Training auf Trn1-Instances beginnen. Darüber hinaus haben wir mit der OpenXLA-Community zusammengearbeitet, um PyTorch-Distributed-Bibliotheken für eine einfache Modellmigration von GPU-basierten Instances zu Trn1-Instances zu aktivieren. Wir freuen uns über die Innovation, die Trn1-Instances der PyTorch-Community bieten, darunter effizientere Datentypen, dynamische Formen, benutzerdefinierte Operatoren, hardwareoptimierte stochastische Rundung und einen einsatzfreudigen Debug-Modus. All dies macht Trn1 gut geeignet für eine breite Akzeptanz durch PyTorch-Entwickler, und wir freuen uns auf zukünftige gemeinsame Beiträge zu PyTorch, um die Trainingsleistung weiter zu optimieren.“
Geeta Chauhan, Applied AI, Engineering Manager, PyTorch
„Hugging Face hat es sich zur Aufgabe gemacht, gute ML zu demokratisieren, um ML-Entwicklern auf der ganzen Welt zu helfen, reale Probleme zu lösen. Und der Schlüssel dazu ist, dass die neuesten und besten Modelle so schnell und effizient wie möglich auf den besten ML-Chips in der Cloud laufen. Wir freuen uns sehr über das Potenzial von Inferentia2, der neue Standard für den Einsatz generativer KI-Modelle in großem Maßstab zu werden. Mit Inf1 konnten wir die Kosten im Vergleich zu herkömmlichen GPU-basierten Instances um bis zu 70 % senken, und mit Inf2 haben wir eine bis zu 8-mal geringere Latenz für BERT-ähnliche Transformers im Vergleich zu Inferentia1 festgestellt. Mit Inferentia2 wird unsere Community in der Lage sein, diese Leistung problemlos auf LLMs mit mehr als 100 B Parametern zu skalieren, und auch auf die neuesten Diffusions- und Computer-Vision-Modelle.“
Amazon-Services, die Trn1-Instances verwenden
Die Produktsuchmaschine von Amazon indexiert Milliarden von Produkten, bedient täglich Milliarden von Kundenanfragen und ist einer der meistgenutzten Dienste der Welt.
„Wir trainieren große Sprachmodelle (LLM), die multimodal (Text + Bild), mehrsprachig und gebietsübergreifend sind, für mehrere Aufgaben vorab trainiert sind und mehrere Einheiten umfassen (Produkte, Anfragen, Marken, Bewertungen usw.), um das Einkaufserlebnis der Kunden zu verbessern. Trn1-Instances bieten eine nachhaltigere Methode für das Training von LLMs, da sie im Vergleich zu anderen Lösungen für beschleunigtes Machine Learning die beste Leistung pro Watt bieten und uns eine hohe Leistung zu den niedrigsten Kosten bieten. Wir planen, den neuen konfigurierbaren FP8-Datentyp und die hardwarebeschleunigte stochastische Rundung zu erkunden, um unsere Trainingseffizienz und Entwicklungsgeschwindigkeit weiter zu steigern.“
Trishul Chilimbi, VP, Amazon Search
Erste Schritte
Amazon SageMaker verwenden
Mithilfe von Amazon SageMaker können Sie Modelle auf Trn1-Instances einfach trainieren. Reduzieren Sie den Zeit- und Kostenaufwand für das Training und die Optimierung von ML-Modellen erheblich, ohne die Infrastruktur verwalten zu müssen. Mit SageMaker können Sie integrierte Tools verwenden, um Trainingsexperimente zu verwalten und zu verfolgen, automatisch optimale Hyperparameter auszuwählen, Trainingsaufträge zu debuggen und die Nutzung von Systemressourcen zu überwachen.
Verwendung der AWS-Deep-Learning-AMIs
Verwenden von AWS-Deep-Learning-Containers
Produktdetails
Instance-Größe | Trainium-Chips |
Beschleuniger Arbeitsspeicher (GB) |
vCPUs | Instance Arbeitsspeicher (GiB) |
Lokal NVMe Speicher (TB) |
Netzwerk Bandbreite (Gbit/s) |
EFA und RDMA Support |
EBS Bandbreite (Gbit/s) |
On-Demand Preis pro Stunde |
1 Jahr Reserved Instance Wirksam Stündlich* |
3 Jahre Reserved Instance Wirksam Stündlich* |
trn1.2xlarge | 1 | 32 | 8 | 32 | 0,5 | Bis zu 12,5 | Nein | Bis zu 20 | 1,34 USD | 0,79 USD | 0,4744 USD |
trn1.32xlarge | 16 | 512 | 128 | 512 | 8 | 800 | Ja | 80 | 21,50 USD | 12,60 USD | 7,59 USD |
trn1n.32xlarge |
16 | 512 | 128 | 512 | 8 | 1 600 | Ja | 80 | 24,78 USD | 14,52 USD | 8,59 USD |
Für ein AWS-Konto registrieren
Sie erhalten sofort Zugriff auf das kostenlose Kontingent für AWS.
Erfahren Sie mehr in unseren 10-minütigen Tutorials
Entdecken und lernen Sie mit einfachen Tutorials.
Beginnen Sie mit der Entwicklung in der Konsole
Erstellen Sie mithilfe von schrittweisen Anleitungen AWS-Projekte.