- Produkt›
- Machine Learning›
- AWS Neuron
AWS Neuron
SDK zur Optimierung von KI und Deep Learning auf AWS Trainium und AWS Inferentia
Was ist AWS Neuron?
AWS Neuron ist der Entwickler-Stack für die Ausführung von Deep-Learning- und generativen KI-Workloads in AWS Trainium und AWS Inferentia. Neuron basiert auf einer Open-Source-Grundlage und ermöglicht es Entwicklern, nativ mit PyTorch- und JAX-Frameworks sowie mit ML-Bibliotheken wie HuggingFace, vLLM, PyTorch Lightning und anderen zu entwickeln, bereitzustellen und zu erkunden, ohne Ihren Code zu ändern. AWS Neuron umfasst einen Compiler, Laufzeit-, Trainings- und Inferenzbibliotheken sowie Entwicklertools für Überwachung, Profilerstellung und Debugging. Neuron unterstützt Ihren durchgängigen Entwicklungszyklus für Machine Learning (ML), angefangen bei der Erstellung und Bereitstellung von Deep-Learning- und KI-Modellen über die Optimierung zur Erzielung höchster Leistung und niedrigster Kosten bis hin zu tiefgründigeren Erkenntnissen über das Modellverhalten.
Neuron ermöglicht schnelles Experimentieren, das Training von Frontier-Modellen im Produktionsmaßstab, Leistungsoptimierung auf niedriger Ebene durch das Neuron Kernel Interface (NKI) für benutzerdefinierte Kernel, den kostenoptimierten Einsatz von Inferenzen für agentenbasierte KI- und Reinforcement-Learning-Workloads sowie umfassendes Profiling und Debugging mit Neuron Explorer.
Entwickelt für Forscher
Neuron ermöglicht schnelle KI-Forschung, indem der native PyTorch-Code unverändert auf Trainium ausgeführt wird. Mit der Unterstützung des PyTorch Eager-Modus können Forscher neue Ideen ausprobieren und schnell iterieren. Die Skalierung ist mit den verteilten PyTorch-Bibliotheken wie FSDP, DDP und DTensor einfach, um Modelle chipübergreifend zu teilen oder auf mehrere Knoten zu skalieren. Neuron unterstützt torch.compile und Bibliotheken wie TorchTitan und HuggingFace Transformers funktionieren jetzt ohne Änderungen direkt in Trainium. Außerdem können JAX-Entwickler Neuron verwenden, um ihre Modelle einfach zu entwickeln, zu optimieren und auf Inferentia und Trainium bereitzustellen.
Entwickelt für Produktivität
Neuron optimiert die Inferenzökonomie für agentenbasierte KI- und Reinforcement-Learning-Workloads. Standard-vLLM V1-APIs funktionieren auf Trainium und Inferentia mit sofort einsatzbereiter Hochleistung mit Features wie Expert Parallelism, disaggregierter Inferenz und spekulativer Dekodierung sowie optimierten Kerneln aus der Neuron Kernel Library, um die Token-Wirtschaftlichkeit im großen Maßstab zu maximieren. ML-Entwickler können mit HuggingFace Optimum Neuron, PyTorch Lightning und TorchTitan trainieren und dann Inferenz mit Standard-vLLM-APIs bereitstellen.
Entwickelt für Innovation
Die Entwicklung von KI-Modellen erfordert sowohl schnelle Innovation als auch Leistungsoptimierung. Standard-Frameworks wie PyTorch machen es zwar einfach, Experimente zu skalieren, aber um die Leistungsgrenzen zu überschreiten, muss der gesamte Stack (Chip, Server und UltraServer) optimiert werden. Neuron bietet ML-Leistungsingenieuren beispiellosen Zugriff auf unsere AWS-KI-Chips über das Neuron Kernel Interface (NKI), tiefergründige Erkenntnisse durch den Neuron Explorer und unsere optimierte Kernel-Bibliothek namens Neuron Kernel Library (NKILib). NKI bietet APIs für Speicherzuweisung und Ausführungsplanung sowie direkten Zugriff auf das Trainium ISA, sodass die Programmierung auf Befehlsebene gesteuert werden kann. Der NKI Compiler ist Open Source, basiert auf MLIR und bietet Entwicklern Erkenntnisse über die gesamte Compiler-Pipeline. Die Open-Source-Neuron Kernel Library bietet optimierte Implementierungen mit Quellcode, Dokumentation und Benchmarks. Neuron Explorer bietet eine einheitliche Suite von Tools, die Entwickler auf ihrem Weg zur Leistungsoptimierung und zum Debuggen begleiten. Leistungsingenieure können die Ausführung vom Quellcode bis hin zum Hardwarebetrieb verfolgen, Profile von Einzelknoten- und verteilten Anwendungen erstellen und KI-gestützte Einblicke und umsetzbare Empfehlungen für Kerneloptimierungen und Leistungsverbesserungen erhalten.
Entwickelt für Open Source
KI-Innovationen gedeihen in offenen Communities, in denen Entwickler sie überprüfen, modifizieren und Beiträge leisten können. Neuron engagiert sich für die Open-Source-Community und fördert Innovationen. Während wir mehr Teile unseres Stacks auf Open Source, NKI Compiler, Neuron Kernel Driver, Neuron Kernel Library, NxD Inference, Neuron Explorer und PyTorch verlagern, sind JAX- und vLLM-Integrationen heute vollständig als Open Source verfügbar. Open-Source-Bibliotheken und -Tools ermöglichen es Entwicklern, Compiler-Implementierungen zu überprüfen, Optimierungen beizutragen und Kernelcode ohne Barrieren anzupassen. Entwickeln Sie Ihre Projekte mit uns!
Neuron kennenlernen
Neuron bietet eine native Integration mit PyTorch, sodass Forscher und ML-Entwickler vorhandenen Code unverändert auf Trainium ausführen können. Standard-APIs wie FSDP, DDP und DTensor funktionieren nahtlos für verteiltes Training in Einrichtungen mit mehreren Knoten. Beliebte ML-Bibliotheken wie TorchTitan, HuggingFace Optimum Neuron, PyTorch Lightning und andere werden direkt mit minimalen Änderungen ausgeführt. Trainieren Sie Modelle mit vertrauten Workflows und Tools, vom vor dem Training bis nach dem Training mit Reinforcement Learning, und nutzen Sie gleichzeitig die Leistungs- und Kostenvorteile von Trainium sowohl für Experimente als auch für Schulungen im Produktionsmaßstab.
Neuron ermöglicht die Bereitstellung von Produktionsinferenzen mit Standard-Frameworks und APIs auf Trainium und Inferentia. Die vLLM-Integration mit Standard-APIs bietet eine leistungsstarke Bereitstellung mit optimierten Kerneln aus der Neuron Kernel Library. Erweiterte Features wie Expert Parallelism, disaggregierte Inferenz und spekulative Dekodierung maximieren die Anzahl der Token pro Sekunde und minimieren gleichzeitig die Kosten pro Token. Stellen Sie agentenbasierte KI- und Reinforcement-Learning-Workloads in großem Maßstab mit sofort einsatzbereiten Leistungsoptimierungen bereit.
Für Leistungsingenieure, die maximale Hardwareeffizienz anstreben, bietet Neuron die vollständige Kontrolle über das Neuron Kernel Interface (NKI) mit direktem Zugriff auf den NeuroNISA-Befehlssatz, Speicherzuweisung und Ausführungsplanung. Entwickler können neue Operationen erstellen, die in Standard-Frameworks nicht verfügbar sind, und leistungskritischen Code mit benutzerdefinierten Kerneln optimieren. Der Open-Source-NKI-Compiler, der auf MLIR basiert, bietet Transparenz in den Kompilierungsprozessen. Die Neuron Kernel Library bietet produktionsbereite, optimierte Kernel mit vollständigem Quellcode, Dokumentation und Benchmarks.
Neuron Explorer bietet eine einheitliche Suite von Tools, die Entwickler auf ihrem Weg zur Leistungsoptimierung und zum Debuggen begleiten. Durch die Konsolidierung von Profiling, Debugging, Implementierung von Optimierungen und Validierung von Verbesserungen in einer einzigen Umgebung vermeidet Neuron Explorer Zeitverluste durch fragmentierte Tools. Hierarchisches Profiling mit Codeverknüpfung für PyTorch, JAX und NKI verfolgt die Ausführung vom Quellcode bis hin zu Hardwareoperationen. KI-gestützte Empfehlungen analysieren Profile, um Engpässe zu identifizieren und umsetzbare Erkenntnisse für Sharding-Strategien und Kernel-Optimierungen zu liefern. Die Benutzeroberfläche ist Open Source auf GitHub.
Neuron bietet umfassende Überwachungs- und Beobachtbarkeitsfunktionen, die es ML-Entwicklern und MLOps-Teams ermöglichen, die betriebliche Exzellenz bei Produktionseinsätzen aufrechtzuerhalten. Die native Amazon-CloudWatch-Integration ermöglicht die zentrale Überwachung der gesamten ML-Infrastruktur mit Unterstützung für containerisierte Anwendungen auf Kubernetes und Amazon EKS. Partnerplattformintegrationen mit Tools wie Datadog erweitern die Beobachtbarkeit um einheitliche Überwachung, Protokollierung und Warnmeldungen. Neuron bietet Hilfsprogramme wie Neuron-Top für die Echtzeitüberwachung, Neuron Monitor für die Erfassung von Metriken, neuron-ls für die Geräteliste und Neuron Sysfs für detaillierte Systeminformationen.
Neuron vereinfacht die Bereitstellung für ML-Entwickler und MLOps-Teams mit vorkonfigurierten Umgebungen und Infrastruktur-Tools. Neuron Deep Learning AMIs (DLAMIs) und Deep Learning Container (DLCs) sind mit dem Neuron-Softwarestack, beliebten Frameworks und wichtigen Bibliotheken ausgestattet. Für Kubernetes-Bereitstellungen verwaltet das Neuron Device Plugin die Ressourcenzuweisung, die Neuron Scheduler Extension sorgt für eine intelligente Workload-Platzierung und der Dynamic Resource Allocation (DRA)-Treiber abstrahiert die Komplexität der Hardwaretopologie mit einer intuitiven größenbasierten Ressourcenauswahl. Helm-Charts optimieren die Orchestrierung für containerisierte Bereitstellungen.