- Machine Learning›
- AWS Trainium›
- Forschung mit AWS Trainium
Build on Trainium
Ein Investitionsprogramm in Höhe von 110 Mio. USD zur Beschleunigung der KI-Forschung und -Schulung mit AWS Trainium
Was ist „Build on Trainium“?
Forschungscluster mit AWS Trainium
Amazon Research Awards
Neuron Kernel Interface
Vorteile
Teilnehmende Universitäten
Nachfolgend ist aufgeführt, wie führende Universitäten vom Programm „Build on Trainium“ profitieren.
Massachusetts Institute of Technology
Im Device Realization Lab des MIT verwenden wir AWS Trainium, um die Grenzen der medizinischen KI-Forschung zu erweitern. Unsere Modelle zur 3D-Ultraschallsegmentierung und Schallgeschwindigkeitsschätzung trainieren schneller und effizienter als je zuvor, wodurch die Versuchszeit um mehr als die Hälfte reduziert wird und gleichzeitig eine hochmoderne Genauigkeit erreicht wird. AWS Trainium hat es uns ermöglicht, unsere Forschung auf eine Weise zu skalieren, die mit herkömmlichen GPU-Systemen nicht machbar war. Durch das Training unserer vollständig konvolutionellen 3D-Neuralnetzwerke auf AWS Trainium (trn.32xlarge) erreichten wir eine Leistung auf dem neuesten Stand der Technik mit einem um 50 % höheren Durchsatz und niedrigeren Kosten im Vergleich zu NVIDIA A100-Instances. Mithilfe eines Trainium-Clusters mit 32 Knoten führten wir effizient über 180 Ablationsexperimente durch, wodurch die gesamte Trainingszeit von Monaten auf Wochen reduziert und die medizinische KI-Innovation am MIT beschleunigt wurde. In Zukunft planen wir, Trainium zu verwenden, um KI-Agentenmodelle zu trainieren, die den digitalen Ultraschall-Workflow bedienen und automatisieren können, was dem Arzt viel Zeit spart und die Patienten besser versorgen kann.“
Carnegie Mellon University
„Die Forschungsgruppe CMU Catalyst arbeitet an der Optimierung von ML-Systemen. Unser Projekt zielt darauf ab, die Optimierung über verschiedene ML-Systeme hinweg zu vereinfachen. Trainium ist einzigartig, da es sowohl eine Steuerung auf niedriger Ebene als auch eine zugängliche Programmierschnittstelle über das Neuron Kernel Interface (NKI) bietet.
Mit Unterstützung von AWS im Rahmen des ‚Build on Trainium‘-Programms war unser Forscher in der Lage, fortschrittliche Optimierungen für einen wichtigen Kernel – FlashAttention – zu untersuchen. Was uns am meisten überraschte, war die Geschwindigkeit, mit der wir iterieren konnten: In nur einer Woche erreichten wir mithilfe der öffentlich zugänglichen NKI-, Neuron Profiler- und Architekturdokumentation bedeutende Verbesserungen zusätzlich zum bisherigen Stand der Technik. Die Kombination aus leistungsstarken Tools und klaren Hardware-Einblicken machte unserem Team eine ausgeklügelte Optimierung auf niedriger Ebene zugänglich.
AWS Trainium und Neuron Kernel Interface (NKI) ermöglicht es Forschern wie uns, schneller innovativ zu sein und Hindernisse zu beseitigen, die normalerweise hardwarespezifische Optimierungsarbeiten verlangsamen.“
Berkeley University of California
„Durch das ‚Build on Trainium‘-Programm hat sein Team vollen Zugriff auf den neuen NKI-Open-Source-Compiler-Stack von AWS Neuron erhalten – einschließlich direkter Einblicke in die Trainium ISA und APIs für eine präzise Planung und Speicherzuweisung. Dieses Maß an Sichtbarkeit und Kontrolle ermöglicht es seinen Studierenden, die Optimierungsmöglichkeiten einfacher zu analysieren und leistungsfähige Implementierungen effektiver zu entdecken.“
Christopher Fletcher, Associate Professor of Computer Science, University of California, Berkeley
University of Illinios Urbana/Champaign
„Der Zugang zu AWS Trainium und Inferentia hat maßgeblich dazu beigetragen, unsere Forschung und Ausbildung im Bereich groß angelegter, effizienter KI-Systeme voranzutreiben. Wir verwenden diese Plattformen für Schulungen und Inferenzoptimierungen von Mixture-of-Experts-Modellen, indem wir Prototypen für neue Laufzeit- und Planungstechniken entwickeln, die die Skalierbarkeit, Effizienz und Portabilität auf neuen Beschleunigerarchitekturen verbessern. Mithilfe des Neuron Developer-Stacks entwickeln UIUC-Forscher neue Laufzeit- und Planungstechniken, die die Effizienz und Portabilität von KI-Workloads verbessern. Das Team ist besonders beeindruckt von der Offenheit des Neuron Developer-Stacks, die diese Plattformen für die Laufzeitforschung wertvoll macht und Innovationen in Bezug auf Sparsität, Speicherhierarchien und Kommunikationseffizienz ermöglicht, die über herkömmliche GPU-Architekturen hinausgehen.“
University of California Los Angeles
„Durch die Nutzung von AWS Trainium und dem ‚Build on Trainium‘-Programm konnten meine Studenten und ich unsere Quantenschaltungssimulationen erheblich beschleunigen. Das Projekt brachte eine starke Gruppe von Studenten zusammen, die gemeinsam einen Hochleistungssimulator bauten, der tiefere Experimente und praktisches Lernen in einem Umfang ermöglichte, der zuvor einfach nicht möglich war.“
University of Technology Sydney
„Unser Forschungsteam bei UTS untersucht die Integration von Tree-Ring-Wasserzeichenalgorithmen, indem es benutzerdefinierte Neuron-NKI-Kernel entwickelt. Der Zugriff auf den Open-Source-Neuron-Stack über das ‚Build on Trainium‘-Programm war transformativ. Es gibt uns einen beispiellosen Einblick in die Trainium-Architektur und die Möglichkeit, direkt auf Hardwareebene zu arbeiten. Der Zugang zu Trainium hat es unserem Team ermöglicht, unsere Wasserzeichen-Workloads erheblich zu beschleunigen, die Iterationszyklen zu reduzieren und komplexere Modelle und Techniken zu untersuchen. Diese Zugriffstiefe ermöglicht es unseren Forschern, neue Ideen zu prototypisieren, mit Optimierungen auf niedriger Ebene zu experimentieren und die Grenzen dessen zu erweitern, was Wasserzeichensysteme mit modernen KI-Beschleunigern erreichen können.“